爬虫抓取技术

时间：2017-04-24 13:17:59 阅读：167 评论：0 收藏：0 [点我收藏+]

标签：图像获取效率识别 post 内容最简访问网站

　　互联网数据很多，发现好内容并能持续不断的抓取是一项不简单的工作。

反反爬虫

爬虫的固定套路也就那么多，各种网站爬取策略的不同就在于网站的反爬虫机制不同，因此多作试验，摸清网站的反爬机制，是大规模爬虫的先行工作。爬虫与反爬虫是无休止的斗争，也是一个见招拆招的过程，但总体来说，以下方法可以绕过常见的反爬虫。

加上headers。这是最基础的手段。加上了请求头就可以伪装成浏览器，混过反爬的第一道关卡；反之，连请求头都不加，网站可以直接看出是程序在访问而直接拒绝。一般的网站加上User-Agent就可以，反爬严格的网站则要加上cookie甚至各种参数都要加上。
随机延时。这是最简单有效的一种手段。稳定性是大规模爬虫的另一个核心问题，虽然与效率冲突。许多网站都会统计同一个IP一段时间内的访问频率，如果采集过快，会直接封禁IP。不要为了一时爽而不加延时导致几分钟后IP就被封24小时，还不如老老实实地加延时慢慢爬一夜爬完。至于延时加多少因各个网站而异，但一般情况下延时个3~5秒就足够了。
如果页面量实在太大，每次访问设置的随时延时也会成为额外大量的时间成本。单个IP快速访问会有被封的风险，这是就要用代理池，有两点好处：一是降低某个IP单位时间内的访问频率，降低被封风险；二是即使IP被封，也有别的IP可以继续访问。代理池有免费和收费的，免费代理可以从许多网站上获取（这也是一个爬虫项目），但大部分都没用，有用的小部分也会很快挂掉；收费代理好一点，但也好不了多少。高质量的代理成本就高了不少，这个要结合项目实际需求来考虑成本。所以，如果网站不封IP就可以不用代理，以免减慢访问速度，增大被拒的概率。
有的网站必须要登录才能访问，才能爬虫。以知乎为例，知乎的模拟登录必较简单，甚至现在都没有对帐号和密码加密，直接明文post就可以。请求头的cookie含有登录信息，而知乎的cookie寿命较长，所以可以直接在网站上人工登录然后把cookie复制到代码中；知乎目前的反爬机制是如果判断是机器人就封帐号但不封IP——封IP是同样的机器无法访问，但却可以用同样的帐号在其他机器上访问；封号是同样的帐号在各种终端上都无法访问，但同一台机器上却可以换号访问。基于这种机制，爬知乎就不需要IP代理池而需要的是帐号池。举另一个例子，腾讯有一个子网站，它也要求必须QQ登录，而且cookie只有6分钟的寿命，而且一个帐号一天只能访问130次超过就封号，无论爬得再慢——这种情况下只能搞大量的QQ号进行自动登录并不断切换。
如果有的网站的反爬机制实在太过丧心病狂，各种JS代码逻辑十分复杂艰深，那只能模拟浏览器了。模拟浏览器其实就是一种自动的浏览器访问，与正常的用户访问很类似，所以可以跳过大部分的反爬机制，因为你装得实在太像正常用户；不过缺点也很明显，就是慢。所以可以用requests搞定的优先用requests，实在没有办法了再考虑模拟浏览器。
验证码。验证码一出就蛋疼了……Python有自动识别图像的包，不过对于大部分网站的验证码都无能为力。写一个自动识别验证码的程序理论上不是不行，但是这种复杂的机器学习项目一点都不比爬虫系统本身难度低，从成本的角度考虑实在是得不偿失——何况对于有些网站如谷歌，验证码识别是非常困难的。所以对于验证码问题，首先是躲过去尽量不要触发验证码，实在触发了只能乖乖人工去填验证码。

好文章

http://www.cnblogs.com/lafengdatascientist/p/6740199.html

http://www.jianshu.com/p/f325430800e7

爬虫抓取技术

标签：图像获取效率识别 post 内容最简访问网站

原文地址：http://www.cnblogs.com/freedommovie/p/6756338.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行