1. 创建项目 2. 创建爬虫 3. 运行爬虫 爬虫技巧 设置setting.py 1. 这是不遵循robot 2. 设置延时 3. 设置 4. 设置 ...
分类:
其他好文 时间:
2018-01-10 14:13:51
阅读次数:
184
爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 3 ...
分类:
编程语言 时间:
2016-06-17 19:26:36
阅读次数:
199
用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 1、基本抓取网页 get方法 post方法 2、使用代理I ...
分类:
编程语言 时间:
2016-04-27 18:34:21
阅读次数:
425
用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 1、基本抓取网页 get方法 ? 1 2 3 4 5 im ...
分类:
编程语言 时间:
2016-04-06 14:54:56
阅读次数:
217