首页 > 其他好文 > 详细

scrapy持久化存储

时间：2020-05-29 12:03:01 阅读：278 评论：0 收藏：0 [点我收藏+]

标签：解析 ESS 返回值 strong 执行表示提交指定数据解析

基于终端指令：

要求：只可以将parse方法的返回值存储到本地的文本文件中

注意：持久批存储对应的文本文件类型只可以为：(‘csv‘, ‘pickle‘, ‘json‘, ‘xml‘, ‘jl‘, ‘jsonlines‘, ‘marshal‘)

指令：scrapy crawl xxx -o filePath

好处：简洁高效便捷

缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

基于管道：

编码流程：

数据解析
在item类中定义相关的属性
将解析的数据封装存储到item类型的对象
将item类型的对象提交给管道进行持久化存储的操作
在管道类的process_item中要将其接收到的item对象中存储的数据进行持久化存储操作
在配置文件中开启管道

好处：

通用性强

面试题：将爬取到的数据一份存储到本地一份存储到数据库，如何实现

管道文件中一个管道类对应的是将数据存储到一种平台，所以需要在pipelines.py文件中定义新的管道类
爬虫文件提交的item只会给管理文件中第一个被执行的管道类接收
process_item中return item表示将item传递给下一个即将被执行的管道类

scrapy持久化存储

标签：解析 ESS 返回值 strong 执行表示提交指定数据解析

原文地址：https://www.cnblogs.com/nanjo4373977/p/12986396.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！