scrapy 框架持久化存储

时间：2019-03-01 21:07:28 阅读：200 评论：0 收藏：0 [点我收藏+]

1.基于终端的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作.

# 执行输出指定格式进行存储:将爬到的数据写入不同格式的文件中进行存储
scrapy crawl <爬虫名称> -o xxx.json
scrapy crawl <爬虫名称> -o xxx.xml
scrapy crawl <爬虫名称> -o xxx.csv

2.基于管道的持久化存储

scrapy框架中已经为我们专门集成好了高效,便捷,的持久化操作功能,我们直接使用即可.要想使用scrapy的持久化操作功能,我们首先来认识如下两个文件:

items.py: 数据结构模板文件,定义数据属性.
pipelines.py: 管道文件,接受数据(items),进行持久化操作

持久化存储流程:
    1.爬虫文件爬取到数据后,需要将数据封装到items对象中.
    2.使用yield关键字将item对象提交给pipelines管道进行持久化操作
    3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象,然后编写持久化存储代码将item对象中存储的数据进行持久化存储
    4.settings.py配置文件中开启管道

小试牛刀:将糗事百科首页中的段子和作者数据爬下来,然后进行持久化存储

未完...

- 爬虫文件:

scrapy 框架持久化存储

标签：... awl 通过 csv 作者爬取形式 xxx pipe

原文地址：https://www.cnblogs.com/baijinshuo/p/10458731.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行