码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy框架的初始

时间:2020-04-15 21:27:52      阅读:95      评论:0      收藏:0      [点我收藏+]

标签:rap   性能   libs   log   爬虫   amd   start   tar   持久   

Scrapy框架(爬虫框架)

  • 什么是Scrapy?

    • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
  • 安装scrapy

  • scrapy的使用方法:

    • 创建项目: scrapy startproject xxx
    • 创建爬虫文件: scrapy genspider first www.xxx.com
    • 执行爬虫文件:scrapy crawl first
    • 执行爬虫文件不打印日志: scrapy crawl budejie --nolog
    • 执行爬虫文件并持久化存储到csv文件中: scrapy crawl budejie -o budejie.csv
  • 管道持久化存储

    • 文件存储: 可以实现任意文件类型的存储
    • mysql存储:
      • 创建连接
      • 创建游标
      • 使用事务
      • 关闭游标和连接
    • redis存储
      • 创建连接
      • 存储的数据需要进行json序列化
      • 关闭连接

scrapy框架的初始

标签:rap   性能   libs   log   爬虫   amd   start   tar   持久   

原文地址:https://www.cnblogs.com/youhongliang/p/12708338.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!