码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 框架持久化存储

时间:2019-03-01 21:07:28      阅读:200      评论:0      收藏:0      [点我收藏+]

标签:...   awl   通过   csv   作者   爬取   形式   xxx   pipe   

1.基于终端的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作.

# 执行输出指定格式进行存储:将爬到的数据写入不同格式的文件中进行存储
scrapy crawl <爬虫名称> -o xxx.json
scrapy crawl <爬虫名称> -o xxx.xml
scrapy crawl <爬虫名称> -o xxx.csv

 2.基于管道的持久化存储

scrapy框架中已经为我们专门集成好了高效,便捷,的持久化操作功能,我们直接使用即可.要想使用scrapy的持久化操作功能,我们首先来认识如下两个文件:

items.py: 数据结构模板文件,定义数据属性.
pipelines.py: 管道文件,接受数据(items),进行持久化操作

持久化存储流程:
    1.爬虫文件爬取到数据后,需要将数据封装到items对象中.
    2.使用yield关键字将item对象提交给pipelines管道进行持久化操作
    3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象,然后编写持久化存储代码将item对象中存储的数据进行持久化存储
    4.settings.py配置文件中开启管道

 小试牛刀:将糗事百科首页中的段子和作者数据爬下来,然后进行持久化存储

未完...

 

- 爬虫文件:

 

scrapy 框架持久化存储

标签:...   awl   通过   csv   作者   爬取   形式   xxx   pipe   

原文地址:https://www.cnblogs.com/baijinshuo/p/10458731.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!