码迷,mamicode.com
首页 > 编程语言 > 详细

编写Python爬虫的简易流程描述

时间:2019-01-19 00:47:19      阅读:215      评论:0      收藏:0      [点我收藏+]

标签:根据   res   响应   有一个   流程   提取   网络   工具   需要   

  python网络爬虫,其实就是模拟人类浏览网页的行为,并将这种行为自动化的工具。

  从技术上来说,就是利用python代码发送特定的request请求到Web页面,最后获得response,并将response解析,提取其中的数据并存储起来。

  开发一个爬虫程序,首先要确定目标。例如爬取拉勾网的python相关职位信息是我们的目标。根据这个目标,我们可以先使用手工的方式,访问拉勾网,搜索python相关职位,从而对如何从页面获取所需信息有一个直观的理解。

  其次,可以使用浏览器自带的开发者工具、抓包工具,对我们发出的请求和接受到的响应进行分析,找出在访问该URL时,浏览器是如何构建request的,使用了哪些参数等,然后对接收到的response进行分析,分析网址是如何响应我们的请求的,是返回HTML,还是返回JSON格式的数据,还是使用Ajax更新页面内容等,并response为依据定位我们需要的信息是属于什么元素的。

  最后,我们需要思考在获取到所需信息后,如何存储这些信息,是使用文本的方式进行存储,还是存储在数据库里等等。

 

  简而言之,编写一个爬虫的简易流程如下:

  1. 确定爬虫目标
  2. 构建request(请求)
  3. 获得response(响应)
  4. 解析response,得到数据
  5. 存储数据

编写Python爬虫的简易流程描述

标签:根据   res   响应   有一个   流程   提取   网络   工具   需要   

原文地址:https://www.cnblogs.com/stonechen/p/10290256.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!