码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy-redis

时间:2019-07-20 23:23:58      阅读:125      评论:0      收藏:0      [点我收藏+]

标签:dup   流程   info   scheduler   对象存储   round   bsp   pdu   调度   

1.请求对象的持久化

2.去重指纹的永久化

所有请求对象、去重指纹均存储在redis中,而不是在内存中,断电/关机即消失,如果第一次请求未完成,第二次需要重新请求全部。

3.实现分布式

所有的服务器公用一个redis中的request对象

流程图:

技术图片


在项目中settings.py中配置:

RedisPipeline:配置所请求的数据存储在redis中,

RFPDupeFilter:配置指纹存储在redis中,

Scheduler:配置调度器,所有request对象存储在redis中

  • RedisPipeline

    redis中数据以列表存储

  • RFPDupeFilter

scrapy-redis

标签:dup   流程   info   scheduler   对象存储   round   bsp   pdu   调度   

原文地址:https://www.cnblogs.com/justaman/p/11219457.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!