python学习之爬虫项目ScrapyProject总结

时间：2020-04-22 18:07:51 阅读：91 评论：0 收藏：0 [点我收藏+]

项目名称： ScrapyProject

项目介绍：

1抓取图书http://www.shicimingju.com:

1). 请求图书详情页parse(self, response)函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 对章节详情页进行解析parse_chapter_detail函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 将采集的数据存储到文件中， pipeeline组件-ScrapyProject/ScrapyProject/pipelines.py
4). 设置文件中启动pipeline组件-ScrapyProject/ScrapyProject/settings.py

2抓取商品的详细信息，出入库情况

 1. 用过sqlalchemy（ORM）将数据信息添加到数据库中
  2.日志信息的配置,图片的配置
  3.根据python数据类型解析商品的详情信息
  4.将尺寸信息序列化为json字符串，如果总库存存在 存储商品信息

技术难点：

   1) 如何处理解析后的数据?
    2). 如何获取/下载小说章节详情页的链接并下载到本地?

我写项目遇到的难点

1.如何分析网站重要要爬取的信息
2.如何理解item对项目的作用
3.爬取项目资源对写入数据库的选择，意义
4.如果要爬的网址有用户密码验证码登录这个如何解决
项目网址：https://gitee.com/huojin181/ScrapyProject.git

python学习之爬虫项目ScrapyProject总结

标签：详细作用 spi 配置 pytho 图片 chap 写入库存

原文地址：https://blog.51cto.com/13810716/2489376

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行