1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段: 3、Cookies处理 cookies是某些网站为了辨别用户身份、进行s ...
分类:
编程语言 时间:
2018-02-09 20:19:04
阅读次数:
174
Squid 反向代理配置 1、删除主配置文件重写写入配置 2、重新写入配置反向代理 # 监听端口 # 修改端口80 accel vhost vport 为反向代理 http_port 80 accel vhost vport # cache_peer 代理IP 端口 0 originserver n ...
分类:
其他好文 时间:
2018-02-03 16:03:16
阅读次数:
219
# -*- coding: utf-8 -*- import urllib.request import json #定义要爬取的微博大V的微博ID id='3924739974' #设置代理IP proxy_addr="122.241.72.191:808" #定义页面打开函数 def use_p... ...
分类:
编程语言 时间:
2018-01-25 16:45:00
阅读次数:
465
Scrapy爬取豆瓣电影top250的电影数据、海报,并保存在MySQL中。动态切换User-Agent,动态切换代理IP(ip池需要自己填充),下载延迟2.5秒 ...
分类:
数据库 时间:
2018-01-21 23:54:36
阅读次数:
2040
在scrapy中使用代理时,我们不能保证每个代理都可用,难免出现代理ip错误的情况,如果代理ip出现错误设置一个请求超时和重新发送这个链接 在yield scrapy.Request时候加上一个参数: 代表请求超时为10秒 然后在settings中设置如下: 保存即可 ...
分类:
其他好文 时间:
2018-01-17 01:23:07
阅读次数:
173
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML、json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录。例如知乎,很多信息都是需要登录以后才能爬取,但是频繁登录后就会出现验证码(有些网站直接就让你输入验证码),这 ...
分类:
编程语言 时间:
2018-01-05 15:11:33
阅读次数:
219
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener()初始化IPinstall_opener()将代理IP设置成全局,当使用urlopen()请求时自动使用代理IP ip代理池构建一 适合IP存活时间长,稳定性好的 ...
分类:
Web程序 时间:
2018-01-03 11:44:24
阅读次数:
538
PLINK.EXE -C -N -D 127.0.0.1:7000 root@111.111.111.111 -pw 123456 解释成中文: PLINK.EXE -启用数据压缩 -不要shell -端口动态转发 代理IP:端口 远程主机用户名@远程主机IP:端口 -密码 就这么简单。 -C en ...
分类:
其他好文 时间:
2017-12-29 21:50:49
阅读次数:
167
设置ip 方法1: service_args = [ '--proxy=%s' % ip_html, # 代理 IP:prot (eg:192.168.0.28:808) '--proxy-type=http’, # 代理类型:http/https ‘--load-images=no’, # 关闭图 ...
分类:
Web程序 时间:
2017-12-24 20:08:18
阅读次数:
1594
前言 其实前面写的那一点点东西都是轻轻点水,其实HttpClient还有很多强大的功能: (1)实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等) (2)支持自动转向 (3)支持 HTTPS 协议 (4)支持代理服务器等 一、HttpClient使用代理IP 1.1、前言 在爬取 ...
分类:
Web程序 时间:
2017-12-14 19:16:18
阅读次数:
225