码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy-redis数据去重与分布式框架

时间:2019-08-03 21:11:24      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:iges   lte   cal   去重   hashlib   方法   als   数据   台电脑   

 

数据去重

  • 生成指纹:利用hashlib的sha1,对request的请求体、请求url、请求方法进行加密,返回一个40位长度的16进制的字符串,称为指纹
fp = hashlib.sha1()
fp.update(to_bytes(request.method))
fp.update(to_bytes(canonicalize_url(request.url)))
fp.update(request.body or b‘‘)
return fp.hexdigest()
  • 进队:
    1. 如果请求需要过滤,并且当前请求的指纹已经在指纹集合中存在了,就不能进入队列了
    2. 如果请求需要过滤,并且请求的指纹是一个新的指纹,进入队列
    3. 如果不需要过滤,直接进入队列
def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    self.queue.push(request)
    return True

 

 

分布式爬虫

  • 类继承RedisSpider、RedisCrawlSpider
  • 使用redis_key,在redis数据库中存储start_urls的键名称

每台电脑从redis数据库中对应的redis_key名称中获取url,发起请求。

scrapy-redis数据去重与分布式框架

标签:iges   lte   cal   去重   hashlib   方法   als   数据   台电脑   

原文地址:https://www.cnblogs.com/zwp-627/p/11296153.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!