爬虫的基本原理

时间：2019-12-02 23:55:29 阅读：195 评论：0 收藏：0 [点我收藏+]

一.爬虫是什么

　模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中

1.发送请求

　　使用http库向目标站点发起请求，即发送一个Request

　　Request包含：请求头，请求体

2.获取响应内容b

　　如果服务器能正常响应，则会得到一个Response

　　Response包含:html,json,图片，视频等
3.解析内容

解析html数据：正则表达式，第三方解析库和Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以b的方式写入文件

4.保存数据

数据库

文件

1.总结爬虫流程:

　　爬虫----->解析------->存储

2.爬虫所需工具

　　请求库:request,selenium

　　解析库:正则,beautifulsoup,pyquery

　　存储库:文件，MySQL,Mongodb,Redis

3.爬虫常用框架:

　　scrapy

原文地址：https://www.cnblogs.com/s686zhou/p/11973644.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行