码迷,mamicode.com
首页 > 编程语言 > 详细

Python的应用领域

时间:2020-03-02 15:15:02      阅读:109      评论:0      收藏:0      [点我收藏+]

标签:工作原理   rem   应用   使用   提取   网站排名   种类型   原理   数据   

 

一、什么是网络爬虫

   爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。

 

二、爬虫的种类

   网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。

 

三、工作原理

   搜索引擎网络爬虫的基本工作流程如下:

技术图片

第一步:抓取网页

第二步:数据存储

第三步:预处理

第四步:提供检索服务, 网站排名

工作原理如下图:技术图片

 

Python的应用领域

标签:工作原理   rem   应用   使用   提取   网站排名   种类型   原理   数据   

原文地址:https://www.cnblogs.com/renleiblog/p/12395145.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!