这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:
Web程序 时间:
2014-06-11 11:17:54
阅读次数:
994
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and
geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:
编程语言 时间:
2014-05-26 23:17:30
阅读次数:
352
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python
APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP
URLs中产生。1.URLError...
分类:
编程语言 时间:
2014-05-26 23:17:09
阅读次数:
341
我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:#- * -
coding: UTF-8 -*-import urllib.requestimport rehtml =
urllib.request.urlopen("http://weibo.com/p/10...
分类:
编程语言 时间:
2014-05-22 00:59:35
阅读次数:
354
1 #!/usr/bin/python 2 #coding:utf8 3 import re 4
import urllib 5 6 def gethtml(url): 7 page=urllib.urlopen(url) 8
html=page.read() 9 ret...
分类:
编程语言 时间:
2014-05-10 18:39:47
阅读次数:
399
Django站点使用django_cas接入SSO(单点登录系统),配置完成后登录,抛出“urlopen error unknown url type: https”异常。寻根朔源发现是python内置的urllib模块不支持https协议。
>>> import urllib
>>> urllib.urlopen('http://www.baidu.com')
>
>>> url...
分类:
编程语言 时间:
2014-05-07 03:43:55
阅读次数:
424
BeautifulSoup 善于网页数据分析
请参考: http://www.crummy.com/software/BeautifulSoup
例如: 抓取CSDN首页极客头条内容 soup.py
import urllib2, re
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://gee...
分类:
编程语言 时间:
2014-05-03 15:31:42
阅读次数:
401
# Python Urllib2和Cookielib的综合使用标签(空格分隔): Python
Urllib2 Fetch---1.
手动添加请求的Headers,在opener,Request,urlopen,看看有几种方法可以使用相同的Headers处理不同的网页;2.
设定CookieJar,...
分类:
编程语言 时间:
2014-05-01 09:43:02
阅读次数:
487
微软bing搜索每天都会换一张壁纸,而且分辨率都高,很适合当做壁纸,写了一个python去获取张壁纸,代码很简单
import urllib
import re
import time
def getHtml(url):
return urllib.urlopen(url).read()
def getImgUrl(html):
reg=re.compile(r'(http:/...
分类:
编程语言 时间:
2014-04-27 21:31:06
阅读次数:
558