搜索关键字：代理ip，搜索到223个结果！码迷,mamicode.com！

HTTP协议与过程的联系

【芝麻HTTP】大数据时代下，生活和数据息息相关，越来越多的行业和个人都需要大数据的帮助。这样的背景下，数据采集成为技术主流，但是大量的采集受到了各种限制，其中最为常见的就是IP受限，该如何解决也成为代理IP的一大问题。了解了关于IP受损，下面我们来聊聊HTTP。1、什么是HTTP协议？1）是基于请求与响应的应用层协议，底层协议TCP保证了数据可靠传输2）通过url进行客户端与服务器之间的数据交互

分类：Web程序时间：2018-11-09 16:28:59 阅读次数：158

学会这七个方法，再也不用担心账号被封

【芝麻HTTP】我们在爬虫的时候经常会出现IP被封的情况，除了大家都知道的使用代理IP，还有什么方法呢？方法一之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。经验如下：需要大量IP时，可以直接使用成熟的代理IP服务商。芝麻HTTP就是一个很好的选择，更多可到官网咨询http://h.zhimaruanjian.com/好处：1.程序逻辑变化小，只需要代理功能。2.根据对方网

分类：其他好文时间：2018-11-08 18:32:43 阅读次数：161

学会这七个方法，再也不用担心账号被封

【芝麻HTTP】我们在爬虫的时候经常会出现IP被封的情况，除了大家都知道的使用代理IP，还有什么方法呢？方法一之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。经验如下：需要大量IP时，可以直接使用成熟的代理IP服务商。芝麻HTTP就是一个很好的选择，更多可到官网咨询http://h.zhimaruanjian.com/好处：1.程序逻辑变化小，只需要代理功能。2.根据对方网

分类：其他好文时间：2018-11-08 18:21:06 阅读次数：244

fiddler抓包常用功能详解

一、基础部分： 1.设置代理ip及端口，tools --> telerik fiddler options --> connections -->勾选 “ Allow romote computers to connect”，端口修改成自己想要的端口号。 2.设置手机代理或浏览器代理，手机进入与fi ...

分类：其他好文时间：2018-11-07 21:36:19 阅读次数：257

爬虫怎么解决IP不足的问题？

在实际的爬虫抓取的过程中，由于会存在恶意采集或者恶意***的情况，很多网站都会设置相应的防爬取机制，通常防爬程序都是通过ip来识别机器人用户的，因此充足可用的ip信息可以为我们解决很多爬虫中的实际问题。通常一些爬虫开发者为了能够正常的采集数据，会选择减慢采集速度或者是去网上找一些免费的代理ip，但是网上很多的免费ip都不可用，可用的也很可能不稳定，因此怎么样在不侵犯对方利益的前提下正常的采集数据就成

分类：其他好文时间：2018-11-07 20:10:00 阅读次数：138

Urllib库：python内置的http请求库

1、四个模块： request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data； post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、 ...

分类：编程语言时间：2018-11-04 14:48:36 阅读次数：169

飞猪IP-代理-换IP作用

1.突破自身ip访问限制，现在有许多的网站都对ip地址访问进行了限制，这时则可以通过代理ip来突破限制，让自己进入网站。2.提高访问速度，通常代理ip服务器都设置一个较大的硬盘缓冲区，当有外信息市，则直接由缓冲区中取出信息，传给用户，以提高访问速度。3.隐藏真实ip达到匿名效果，可以通过代理ip上网，隐藏真实的ip地址，避免受到******。4.突破ip封锁，例如要抓取一个网站的数据，但是网站对每个i

分类：其他好文时间：2018-10-31 17:10:35 阅读次数：5644

动态HTMl处理

后续爬虫代码的建议尽量减少请求次数 1. 能抓列表页就不抓详情页 2. 保存获取的html页面，供差错和重复请求使用关注网站的所有类型的页面 1. wap页面，触屏版页面 2. H5页面 3. APP 多伪装 1. 动态的UA 2. 代理ip 3. 不使用cookie 利用多线程分布式在不被b ...

分类：Web程序时间：2018-10-27 00:14:05 阅读次数：204

python 爬虫proxy,BeautifulSoup+requests+mysql 爬取样例

实现思路：由于反扒机制，所以需要做代理切换，去爬取，内容通过BeautifulSoup去解析，最后入mysql库 1.在西刺免费代理网获取代理ip，并自我检测是否可用 2.根据获取的可用代理ip去发送requests模块的请求，带上代理 3.内容入库注：日志模块在上一篇随笔下面附上代码 1.可 ...

分类：数据库时间：2018-10-19 13:57:30 阅读次数：366

11.启信宝工商信息二次筛选解密-1

二次筛选原因： 1.利用scrapy配合代理ip爬取企查查手机接口网页，导致网站对反爬更新限制ip访问量。 2.另寻他路编写启信宝手机接口网站爬虫scrapy继续采集第一次未采集和出错的数据。这里还有一些问题就是这个网站对ip没有限制，程序只要不出错能一直运行，我是直接吧字段拿来放到一个列表里面做... ...

分类：其他好文时间：2018-09-11 21:09:24 阅读次数：1435