注意的是要验证代理ip是否可用 大家可以参考这个网站 http://www.66ip.cn/yz/ ...
分类:
编程语言 时间:
2017-05-20 20:38:21
阅读次数:
1856
1、首先,百度检索。参考别人的,大致上都是到安装证书就失败了。我后面只说几个关键点。 2、安装证书,必须设置屏幕密码。我最开始使用把cef拷贝到,手机结果出现bug,安装不了。后来采用了在手机内部访问 http://代理IP:代理端口,可以出现, 出现下图,点击安装证书即可,这样安装证书就ok了,也 ...
分类:
Web程序 时间:
2017-05-06 13:07:08
阅读次数:
233
2端口:管理实用程序3端口:压缩进程5端口:远程作业登录7端口:回显9端口:丢弃11端口:在线用户13端口:时间17端口:每日引用18端口:消息发送协议19端口:字符发生器20端口:FTP文件传输协议(默认数据口)21端口:FTP文件传输协议(控制)22端口:SSH远程登录协议23端口:telnet ...
分类:
其他好文 时间:
2017-05-01 01:24:23
阅读次数:
330
7-1 爬虫和反爬的对抗过程以及策略 Ⅰ、爬虫和反爬虫基本概念 Ⅱ、反爬虫的目的 Ⅲ、爬虫和反爬虫对抗过程 7-2 scrapy架构源码分析 原理图: 我最早接触scrapy的时候就是看这张原理图,如下图 现在有新的原理图,更加直观,如下图 看了视频讲的源码解析,看一遍根本看不懂,后期还要多看叫上项 ...
分类:
其他好文 时间:
2017-04-25 23:28:48
阅读次数:
726
IP 代理 代理IP 存储的数据库clawer, smart_proxy_proxyip 表 select count(*) from smart_proxy_proxyip [where is_valid=1]; 1.进行IP 爬去 from smart_proxy.cramer_proxy_ip ...
分类:
其他好文 时间:
2017-04-23 01:11:05
阅读次数:
309
这4种代理,主要是在代理服务器端的配置不同,导致其向目标地址发送请求时,REMOTE_ADDR, HTTP_VIA,HTTP_X_FORWARDED_FOR三个变量不同。 1、透明代理(Transparent Proxy) REMOTE_ADDR = Proxy IP HTTP_VIA = Prox ...
分类:
其他好文 时间:
2017-02-18 14:15:24
阅读次数:
170
背景:利用爬虫,爬取网站页面广告元素,监控爬取元素的数目,定时发送监控邮件#!/usr/bin/envpython2.7
#-*-coding:utf-8-*-
‘‘‘
@xiayun
@896365105@qq.com
#爬取网站内容,利用phantomjs:IP代理+修改UA+动态页面执行JS
‘‘‘
fromseleniumimportwebdriver
fromselenium.webd..
分类:
编程语言 时间:
2017-01-23 21:44:40
阅读次数:
870
背景:无论是自己爬虫爬取的IP代理还是购买的IP代理服务都会存在IP不稳定的情况。通过不断的校验来判断IP是否可用。#!/usr/bin/envpython2.7
#coding:utf8
importos,time,sys
#importmymodul
#fromlxmlimportetree
importre
importrandom
importrequests,os
importsys
#每10分..
分类:
编程语言 时间:
2017-01-23 21:42:55
阅读次数:
569
###代理#####正向代理##客户端不能访问服务端,代理访问服务端缓存数据,给客户端看。本次实验:客户机ip:172.25.27.227代理机两个ip:172.25.254.127172.25.27.127服务端ip:172.25.254.27步骤:(1)代理安装并配置squid[root@desktop~]#yuminstallsquid-y##安装软件[root@d..
分类:
系统相关 时间:
2016-12-15 18:35:23
阅读次数:
249
一、基础知识 1、HTML分析 2、urllib爬取 3、urllib保存网页 4、urllib保存图片 5、模拟浏览器 6、正则表达式 7、IP代理 8、抓包分析 9、多线程爬取 10、异常处理 11、XPath 二、Scrapy安装关联包 PyCharm 》File 》Settings 》Pro ...
分类:
编程语言 时间:
2016-12-11 01:59:15
阅读次数:
239