importurllibimporturllib2murl="http://zhpfbk.blog.51cto.com/"UserAgent="Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/56.0.2896.3Safari/537.36"req=urllib2.Request(murl)req.add_header(‘User-Agent‘,‘Mozilla/5.0‘)printreq.get_method..
分类:
编程语言 时间:
2016-12-27 01:32:29
阅读次数:
130
Python之路【第十九篇】:爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Requests Python标准库中提供了:urllib ...
分类:
编程语言 时间:
2016-12-27 01:03:22
阅读次数:
316
urllib和urllib2urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能;urllib和urllib2这两个模块并不可以互相替补;urllib2可以接受一个Request类的实例来设置URL请求的header,urllib仅可以接受URL。这就意味着你不可以伪装你的UserAgent字符串等urllib提供的ur..
分类:
编程语言 时间:
2016-12-26 19:22:27
阅读次数:
185
#!/usr/bin/envpython
#coding:utf-8
importurllib,re
defgetHtml(url):
page=urllib.urlopen(url)
html=page.read()
returnhtml
defgetImage(html):
reg=r‘src="(.+?\.jpg)"‘
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
#returnimglist
x=0
forimgurlinimglist:
..
分类:
其他好文 时间:
2016-12-26 14:17:42
阅读次数:
160
一、简介 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 二、requests Python标准库中提供了:urllib、urllib2、ht ...
分类:
其他好文 时间:
2016-12-24 19:39:47
阅读次数:
150
1 #!/usr/bin/env python 2 #-*-coding:utf-8-*- 3 import urllib 4 import urllib2 5 import json 6 import time 7 import sys 8 def check_ipaddr(func,*args,... ...
分类:
其他好文 时间:
2016-12-22 20:26:00
阅读次数:
268
#Author:xuesong li import gevent from gevent import monkey monkey.patch_all() from urllib.request import urlopen import time def pa_web_page(url): pri... ...
分类:
编程语言 时间:
2016-12-22 20:25:26
阅读次数:
209
sublime编辑器前端必备插件 下面这一行是Package Control包安装,它是sublime的插件包管理器。新安装的sublime 里没有Package Control,按一下ctrl+~,然后输入下面这个。 import urllib.request,os,hashlib; h = '2 ...
分类:
其他好文 时间:
2016-12-21 02:49:19
阅读次数:
152
暑假学的,并写的笔记。现在把他写到博客上,也是复习一波。寒假继续学习。争取写个帮我抢火车票的。因为学的是python2.7x。。。。
所以用的urllib
原来可以在submile 中运行pyth...
分类:
编程语言 时间:
2016-12-19 16:41:20
阅读次数:
271
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') get or post urlencode 如果在GET需要一些参数的话 ...
分类:
编程语言 时间:
2016-12-18 15:24:23
阅读次数:
8517