下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download
标签:
2016-6-18
--今天实现了第一个用urllib2实现的爬虫程序。
--过程中发现
req = urllib2.Request(url,headers = headers)
总是报错: 主要原因在于 url 地址错误。
例如:http://www.neihan8.com/wenzi/index_1.html
这个网址打开的是404网页错误。
但是 http://www.neihan8.com/wenzi/index_2.html 这个网页却可以了。
源代码如下:
#-*- coding:utf-8 -*-
import urllib2
class Spider:
‘‘‘
内涵段子吧。。。
‘‘‘
def load_page(self,page):
‘‘‘
发送内涵段子url
‘‘‘
url = ‘http://www.neihan8.com/wenzi/index_‘+ str(page) +‘.html‘
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}
req = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(req)
html = response.read()
return html
#main
‘‘‘
‘‘‘
if __name__ == ‘__main__‘:
mySpider = Spider()
the_page = mySpider.load_page(2)
print the_page
综上,我们可以在代码中加一个判断 url 是否打开正常的代码,这个需要学习。
-----------------------------------------------------------华丽丽的分割线-------------------------------------------------------------------------------------------------
安装Scrapy

下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download
标签:
原文地址:http://www.cnblogs.com/goodge/p/5595754.html