码迷,mamicode.com
首页 > 其他好文 > 详细

框架---scrapy(基本用法)

时间:2020-11-20 11:46:42      阅读:4      评论:0      收藏:0      [点我收藏+]

标签:定义   scrapy   实现   基本   pat   spider   rtp   src   crawl   

https://docs.scrapy.org/en/latest/topics/commands.html (官方文档)
1.scrapy startproject hello
此时会生成一个hello工程,同时生成一个srapy.cfg配置文件和一个同名文件夹
技术图片

2.srapy genspider quote quotes.toscrape.com
items.py,定义了保存数据时的数据结构
middlewares.py,处理中间件,可以处理request,response等
pipelines.py,可以
settings.py,配置信息
quote.py,主要代码实现在该spider中
技术图片

3.spider crawl quote (quote为创建的spider,注意不要带.py后缀)
爬取网页并解析,输出结果到屏幕
spider crawl quote -o quotes.json
将结果输出到json文件中
同时还支持其他文件方式的保存,如:quotes.csv,quotes.marshal,quotes.xml

spider crawl quote -o ftp://username:pass@ftp.example.com/path/quotes.csv
4.spider介绍

  • parse方法为请求链接之后默认执行的方法,其中的参数response为请求链接成功之后得到的response
    技术图片
    )
  • items.py
    将parse()方法解析后的结果处理,将结果结构化输出
    技术图片
    如相对item做进一步处理,如剔除某些item或将item保存到数据库,可借助pipelines.py操作
    技术图片
  • pipelines.py
    需在setting.py中指定后才能生效
    技术图片

框架---scrapy(基本用法)

标签:定义   scrapy   实现   基本   pat   spider   rtp   src   crawl   

原文地址:https://www.cnblogs.com/tingshu/p/13977546.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!