1、使用python的库urllib2,用到urlopen和Request方法。2、方法urlopen原形urllib2.urlopen(url[, data][, timeout])其中:url表示目标网页地址,可以是字符串,也可以是请求对象Requestdata表示post方式提交给目标服务器的...
分类:
编程语言 时间:
2015-05-27 15:30:13
阅读次数:
171
通过python的urllib2模块,可以轻易的去模拟用户访问网页的行为。这里将自己的学习过程简单的记录下来。一、urlopen函数urlopen(url,data=None)--Basicusageisthesameasoriginalurllib.passtheurlandoptionallydatatoposttoanHTTPURL,andgetafile-likeobjectback.Onedifference..
分类:
编程语言 时间:
2015-05-24 19:02:33
阅读次数:
153
import reimport urllibdef getHtml(url):page=urllib.urlopen(url)html=page.read()return htmldef getpic(html):s=r'src="(.*?\.jpg)" pic_ext'piclist=re.fin...
分类:
编程语言 时间:
2015-05-17 18:28:38
阅读次数:
149
build_opener()详解: 1.urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能,要支持这些功能,必须使用build_opener()函数创建自定这句话的Opener对象。 代码如下: build_Opener([handler1[handle...
分类:
编程语言 时间:
2015-05-14 15:42:54
阅读次数:
134
1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址;参数data表示以post方式提交到url的数据(玩过web的人...
分类:
编程语言 时间:
2015-05-13 18:32:29
阅读次数:
180
参考学习地址:http://www.iplaypython.com # coding:utf-8 # 学习1 import urllib.request # print(dir(html)) # 获取网页所在的header信息 url="http://www.iplaypython.com/" html=urllib.request.urlopen(ur...
分类:
编程语言 时间:
2015-05-04 08:48:12
阅读次数:
246
使用Python访问网页主要有三种方式: urllib, urllib2, httpliburllib比较简单,功能相对也比较弱,httplib简单强大,但不支持session1. 最简单的页面访问(获取服务器端的Response包)res=urllib2.urlopen(url)print res...
分类:
编程语言 时间:
2015-05-03 01:56:14
阅读次数:
215
看代码;利用urlopen中的超时参数设立一个循环while True: try: page = urllib.request.urlopen(url, timeout=3) break except: tracebake.print_exc()...
分类:
编程语言 时间:
2015-04-29 18:56:48
阅读次数:
167
程序大概内容如下:
程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。
ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。
DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。
这只是一个基本的框架,可以根据需求继续扩展...
分类:
编程语言 时间:
2015-04-28 09:49:14
阅读次数:
164
1 import urllib22 url = u"http://www.baidu.com/wd=测试"3 urllib2.urlopen(url.encode('utf-8')).read()对url进行encode编码
分类:
Web程序 时间:
2015-04-26 15:04:13
阅读次数:
149