码迷,mamicode.com
首页 > 其他好文 > 详细

10.聚焦爬虫和通用爬虫的区别

时间:2018-12-02 12:23:05      阅读:325      评论:0      收藏:0      [点我收藏+]

标签:流程   程序   开始   爬取   中文搜索   code   无效   通过   不同   

1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。

 通用爬虫要遵循规则:Robots协议
 
 通用爬虫工作流程:
  爬取网页》存储数据》内容处理》提供检索
 
 通用爬虫缺点:
  只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序)
  提供的结果千篇一律,针对不同领域提供不同内容
  不能提供人类语义上的检索
 
 通用爬虫局限性:
  1.通用搜索引擎返回网页的数据内容,大概90%都无用。
  2.中文搜索引擎自然语言检索理解困难。
  3.信息占有量和覆盖率存在局限。
  4.搜索引擎主要是以关键字搜索为主,对于图片、数据库、视频、音频等多媒体的内容用通用搜索引擎无效。
  5.搜索引擎的社区化和个性化不好,未考虑实际因素如人的地域、性别、年龄等差别。
  6.搜索引擎爬取动态网页效果不好
2.聚焦爬虫:针对于某一需求编写的爬虫程序。
 
聚焦爬虫可分为三类:
  
 1.积累式爬虫:从开始到结束,不断爬取,过程会进行重复操作。

 2.增量爬虫:已下载网页采取增量式跟新,爬取更新变化的数据。
 
 3.深度爬虫:指那些不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获取的web界面。

 

10.聚焦爬虫和通用爬虫的区别

标签:流程   程序   开始   爬取   中文搜索   code   无效   通过   不同   

原文地址:https://www.cnblogs.com/lvjing/p/10052221.html

(1)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!