码迷,mamicode.com
首页 > 编程语言 > 详细

python scrapy

时间:2018-04-09 21:48:09      阅读:196      评论:0      收藏:0      [点我收藏+]

标签:实时   encode   url   分布   web   存储   内容   爬取   lib   

1、要求:python基础,python web框架的了解,web.py\flask\django等,爬虫框架scrapy的基础,html解析技术bs\xpath等

2、设计爬虫策略

3、反爬虫处理,模拟浏览器,使用代理ip等

4、分布式爬虫 scrapy-redis,利用redis对url去重,存储并实现多台机器运行

5、数据存储一般用Mongodb,数据量少可以用mysql等

6、数据的处理:a、json与object的处理     b、字符的处理python3默认全部采用utf-8   c、对url的字符处理(处理成Unicode,urllib.parse.quote("中文")) d、对网页或请求返回的数据字符处理(encode=utf-8)

7、实时爬虫利用网络的搜索引擎,结合动态web框架,实现实时爬取搜索出的内容

代码项目:可以参考github上的项目

实现爬取的自己写了一个小项目,如需要私信

python scrapy

标签:实时   encode   url   分布   web   存储   内容   爬取   lib   

原文地址:https://www.cnblogs.com/J-Cooper/p/8763113.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!