Python 网络爬虫程序架构及运行流程

时间：2020-03-09 13:10:42 阅读：85 评论：0 收藏：0 [点我收藏+]

1 前言

Python开发网络爬虫获取网页数据的基本流程为：

发起请求

通过URL向服务器发起request请求，请求可以包含额外的header信息。

获取响应内容

服务器正常响应，将会收到一个response，即为所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片）等。

解析内容

如果是HTML代码，则可以使用网页解析器进行解析，如果是Json数据，则可以转换成Json对象进行解析，如果是二进制的数据，则可以保存到文件做进一步处理。

保存数据

可以保存到本地文件，也可以保存到数据库（MySQL，Redis，MongoDB等）。

技术图片

技术图片

网络爬虫程序框架主要包括以下五大模块：

五大模块功能如下所示：

网络爬虫程序框架的动态运行流程如下所示：

技术图片

本文简要介绍了Python开发网络爬虫的程序框架，将网络爬虫运行流程按照具体功能划分为不同模块，以便各司其职、协同运作。搭建好网络爬虫框架后，能够有效地提高我们开发网络爬虫项目的效率，避免一些重复造车轮的工作。

原文地址：https://www.cnblogs.com/yangmi511/p/12448067.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行