码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 you-get    ( 2477个结果
Python第一个程序小爬虫
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*- import urllib2...
分类:编程语言   时间:2015-04-29 21:47:24    阅读次数:154
python抓取京东商城的商品名称和价格
突然心血来潮想抓一个京东的商品价格,突然发现网页的源码里没有价格这一项,只有商品的编号,网上说是显示的同事js从数据库里取出商品价格,放在页面上,那么我只能模拟请求了。哇咔咔,记得去你给京东投简历之后就没有然后了,难道就因为我也叫京东,你这也太浮夸了,给我幼小心灵造成创伤了。     原本要写一下creepy这个模块来抓取了,但今天时间不够了,明天还要上班。。。。明天再写那个模块吧,据说...
分类:编程语言   时间:2015-04-29 10:00:23    阅读次数:179
[python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。 由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法: 直接使用urllib自带的ope...
分类:编程语言   时间:2015-04-26 13:54:36    阅读次数:295
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python #! -*- coding: utf-8 -*- #图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px" import urllib,urllib2 i...
分类:编程语言   时间:2015-04-26 13:53:49    阅读次数:160
[python][爬虫]从网页中下载图片
说明:仅为测试下载图片、正则表达式 测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子 以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python #! -*- coding: utf-8 -*- import urllib,urllib2 import re #返回网页源代码 def getHtml(url): html = urllib2.urlopen...
分类:编程语言   时间:2015-04-23 13:27:53    阅读次数:184
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制; 此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python #! -*- coding: utf-8 -*- #图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif...
分类:编程语言   时间:2015-04-23 13:18:49    阅读次数:228
Useful WCF Behaviors - IErrorHandler
Behaviors in WCF are so stinking useful, and once you get past the basics of WCF they're arguably a necessity. Microsoft has saved itself from hundred...
分类:其他好文   时间:2015-04-22 17:54:26    阅读次数:143
[python]糗百热点爬虫v2.0【15/4/21更新】
刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= = 重新改了正则表达式发上来:#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 #...
分类:编程语言   时间:2015-04-22 09:38:51    阅读次数:200
[python]糗百热点爬虫
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 # Modifier: sunny # Sinc...
分类:编程语言   时间:2015-04-20 18:38:44    阅读次数:143
WHU1564---Circle (后缀数组)
Description Here is a circle sequence S of length n, and you can choose a position and remove the number on it. After that,you will get a integer. More formally,you choose a number x( 1<=x<=n ),then...
分类:编程语言   时间:2015-04-20 15:01:12    阅读次数:209
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!