python爬虫Scrapy框架之中间件

时间：2019-01-23 20:31:52 阅读：273 评论：0 收藏：0 [点我收藏+]

标签：pytho ensp 重启 tar 方法 text get middle nload

Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spider的时候, 所以说下载中间件是结余Scrapy的request/response处理的钩子, 用于修改Scrapy request和response. 技术分享图片

编写自己的下载器中间件 :

　　编写下载器中间件, 需要定义下一或者多个方法的python类

　　新建一个关于爬取httpbin.org网站的项目

scrapy startproject httpbintest 
cd httpbintest
scrapy genspider example example.com

　　写一个简单的代理中间件实现ip伪装

　　创建好爬虫之后将httpbin.py中的parse方法改成:

    def parse(self, response):
        print(response.text)

　　然后命令行启动爬虫: scrapy crawl httpbin

技术分享图片

　　在下面看到"origin": "114.250.88.66"

　　在查看自己的ip

技术分享图片

　　编写中间件实现ip伪装, 在middleares.py中:

class ProxyMiddleare(object):
    logger = logging.getLogger(__name__)
    def process_request(self,request, spider):
        self.logger.debug("Using Proxy")
        request.meta[‘proxy‘] = ‘http://127.0.0.1:9743‘
        return None