python 爬虫学习之路

时间：2016-06-18 18:27:12 阅读：120 评论：0 收藏：0 [点我收藏+]

标签：

2016-6-18

--今天实现了第一个用urllib2实现的爬虫程序。

--过程中发现

 req = urllib2.Request(url,headers = headers)

总是报错：主要原因在于 url 地址错误。

例如：http://www.neihan8.com/wenzi/index_1.html

这个网址打开的是404网页错误。

但是 http://www.neihan8.com/wenzi/index_2.html 这个网页却可以了。

源代码如下：

#-*- coding:utf-8 -*-
import urllib2
class Spider:
    ‘‘‘
        内涵段子吧。。。
    ‘‘‘
    def load_page(self,page):
        ‘‘‘
        发送内涵段子url
        ‘‘‘
        url = ‘http://www.neihan8.com/wenzi/index_‘+ str(page) +‘.html‘
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}
        req = urllib2.Request(url,headers = headers)
        response = urllib2.urlopen(req)
        html = response.read()
        return  html
#main
‘‘‘

‘‘‘
if __name__ == ‘__main__‘:
    mySpider = Spider()
    the_page = mySpider.load_page(2)
    print the_page

　　综上，我们可以在代码中加一个判断 url 是否打开正常的代码，这个需要学习。

-----------------------------------------------------------华丽丽的分割线-------------------------------------------------------------------------------------------------

安装Scrapy

技术分享

Python教程：pywin32下载安装

下载链接http://sourceforge.net/projects/pywin32/files/pywin32/Build%20218/pywin32-218.win32-py2.7.exe/download

python 爬虫学习之路

标签：

原文地址：http://www.cnblogs.com/goodge/p/5595754.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行