应用场景 爬虫过于频繁的抓取网站信息会被反爬虫机制屏蔽掉,或者有些网站对我们的Ip有限制,一个IP之能操作一次,这个时候就需要设置代理了。这方面需求还是很大的,有专门的服务商提供代理,没钱的自己动手打造一个代理池吧。 所用的工具 O/RM-Entity Framework Html解析-HtmlAg ...
分类:
其他好文 时间:
2016-12-24 17:19:33
阅读次数:
244
编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放,“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可第一时间获知微分享信息~ 你被爬虫侵扰过么?当你看到“爬虫”两个 ...
分类:
其他好文 时间:
2016-12-13 07:42:34
阅读次数:
236
urllib模块只能用get urllib2模块既有get也有post 网址url = urllib2.urlopen(‘ ‘)有data表示post请求 urllib2模块 request请求是反爬虫 add—header中要写成字典的形式,用逗号隔开,单引号引起两部分的内容 ...
分类:
其他好文 时间:
2016-11-10 09:46:32
阅读次数:
364
今天博客开始继续更新,谢谢大家对我的关注和支持。这几天一直是在写一个ip代理池的开源项目。通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip。拥有庞大稳定的ip代理,在爬虫工作中将起到重要的作用,但是从成本的角度来说,一般稳定的ip池都很贵,因此我这个开源项目的意义就诞生了,爬 ...
分类:
编程语言 时间:
2016-07-21 21:42:16
阅读次数:
10062
今天周五,项目刚刚上线完,有些时间,闲着无聊,继续复习爬虫,这次打算爬取网站的美女图片。得先找到目标,然后目标网站还不会反爬虫,因为自己只是小白,好了开始。寻找目标,发现了目标,哈哈http://www.meizitu.com里面图片按专题分类。先看下页面找出相关源码页面源码即..
分类:
编程语言 时间:
2016-07-15 22:04:50
阅读次数:
377
在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了 ...
分类:
Web程序 时间:
2016-07-06 00:30:02
阅读次数:
309
编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放,“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可获知更多微分享信息。 你被爬虫侵扰过么?当你看到“爬虫”两个字的 ...
分类:
其他好文 时间:
2016-06-30 16:10:37
阅读次数:
211
我们所处的互联网, 是一个爬虫的世界。任何一个小公司,小团队,甚至一个应届毕业生,都有可能编写爬虫,偷偷的获取数据。 当你看到“爬虫”两个字的时候, 就应该有点血脉贲张的感觉了。 爬虫就如同病毒一样无孔不入。有的爬虫肆无忌惮地访问资源,导致服务器性能下降甚至崩溃;有的爬虫如同间谍一样秘密入侵,伪装成 ...
分类:
其他好文 时间:
2016-06-17 14:17:11
阅读次数:
402
有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。 报错信息如下: Http 800 Internal internet error 这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。 之前正常的爬虫代码如下: 这个时候,需要我们给我们的爬虫代码做下伪装 ...
分类:
编程语言 时间:
2016-06-09 18:37:46
阅读次数:
259