码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫的基本原理

时间:2019-12-02 23:55:29      阅读:195      评论:0      收藏:0      [点我收藏+]

标签:代码   response   res   sql   json   文件中   内容   表达   bsp   

一.爬虫是什么

 模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中

二.爬虫的基本流程

1.发送请求

  使用http库向目标站点发起请求,即发送一个Request

  Request包含:请求头,请求体

2.获取响应内容b

  如果服务器能正常响应,则会得到一个Response

  Response包含:html,json,图片,视频等
3.解析内容

解析html数据:正则表达式,第三方解析库和Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以b的方式写入文件

4.保存数据

数据库

文件

六.总结

1.总结爬虫流程:

  爬虫----->解析------->存储

2.爬虫所需工具

  请求库:request,selenium

  解析库:正则,beautifulsoup,pyquery

  存储库:文件,MySQL,Mongodb,Redis

3.爬虫常用框架:

  scrapy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

爬虫的基本原理

标签:代码   response   res   sql   json   文件中   内容   表达   bsp   

原文地址:https://www.cnblogs.com/s686zhou/p/11973644.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!