码迷,mamicode.com
首页 >  
搜索关键字:urlopen    ( 699个结果
selenium2+phantomjs入门范例
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:Web程序   时间:2014-06-11 11:17:54    阅读次数:994
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用(转)
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:编程语言   时间:2014-05-26 23:17:30    阅读次数:352
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类(转)
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。1.URLError...
分类:编程语言   时间:2014-05-26 23:17:09    阅读次数:341
python爬虫问题请教一下大家(急等回复)
我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:#- * - coding: UTF-8 -*-import urllib.requestimport rehtml = urllib.request.urlopen("http://weibo.com/p/10...
分类:编程语言   时间:2014-05-22 00:59:35    阅读次数:354
Python爬虫示例
1 #!/usr/bin/python 2 #coding:utf8 3 import re 4 import urllib 5 6 def gethtml(url): 7 page=urllib.urlopen(url) 8 html=page.read() 9 ret...
分类:编程语言   时间:2014-05-10 18:39:47    阅读次数:399
python内置的urllib模块不支持https协议的解决办法
Django站点使用django_cas接入SSO(单点登录系统),配置完成后登录,抛出“urlopen error unknown url type: https”异常。寻根朔源发现是python内置的urllib模块不支持https协议。 >>> import urllib >>> urllib.urlopen('http://www.baidu.com') > >>> url...
分类:编程语言   时间:2014-05-07 03:43:55    阅读次数:424
python : BeautifulSoup 网页数据分析
BeautifulSoup 善于网页数据分析  请参考:  http://www.crummy.com/software/BeautifulSoup 例如: 抓取CSDN首页极客头条内容  soup.py import urllib2, re from BeautifulSoup import BeautifulSoup page = urllib2.urlopen("http://gee...
分类:编程语言   时间:2014-05-03 15:31:42    阅读次数:401
Python Urllib2和Cookielib的综合使用
# Python Urllib2和Cookielib的综合使用标签(空格分隔): Python Urllib2 Fetch---1. 手动添加请求的Headers,在opener,Request,urlopen,看看有几种方法可以使用相同的Headers处理不同的网页;2. 设定CookieJar,...
分类:编程语言   时间:2014-05-01 09:43:02    阅读次数:487
python获得bing壁纸,并下载到本地
微软bing搜索每天都会换一张壁纸,而且分辨率都高,很适合当做壁纸,写了一个python去获取张壁纸,代码很简单 import urllib import re import time def getHtml(url): return urllib.urlopen(url).read() def getImgUrl(html): reg=re.compile(r'(http:/...
分类:编程语言   时间:2014-04-27 21:31:06    阅读次数:558
699条   上一页 1 ... 68 69 70
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!