安装 pip install selenium web phantomjs下载 :http://phantomjs.org/download.html 浏览器驱动下载:http://www.seleniumhq.com/download chrome: http://chromedriver.sto ...
分类:
其他好文 时间:
2016-07-16 22:16:14
阅读次数:
152
前面我们介绍了如何求解极验验证码的滑块目标位移,下面我就就要开始实施拖动滑块破解了。因为我们采取的是模拟人的行为操作,而极验验证码都是js渲染的,因此我们需要一个工具来帮我们完成这个渲染过程得到一个完整的页面,否则一切都是空谈。这里我将使用casperJs+phantomJs来实现目标。 phant... ...
分类:
其他好文 时间:
2016-07-09 01:52:48
阅读次数:
256
1,引言最近一直在看Scrapy爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。本文主要介绍如何使用Scrapy结合PhantomJS采集天猫商品内容,文中自定义了一个DOWNLOADER_MIDDLEWARES,用来采集需要加载j..
分类:
编程语言 时间:
2016-07-07 14:36:43
阅读次数:
598
最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。 ...
分类:
编程语言 时间:
2016-07-06 13:09:02
阅读次数:
206
以PhantomJs为例: 1)vim /etc/profile2)在文件的最后一行,添加安装路径path语句:(注意路径是phantomjs的安装路径)export PATH=${PATH}:/usr/local/src/phantomjs/bin/3)保存修改后的文件:wq 4)使用命令使环境变 ...
分类:
系统相关 时间:
2016-06-24 14:26:32
阅读次数:
241
如题,先来张最终效果运营日报下面介绍下实现过程【前期准备】kibana配置视图,并做好条件过滤视图,这里就是做介绍,可以参考博文,视图做好后生成一个短链接,这里我们生成的是http://10.0.0.110:5601/goto/4d641c075d7cbf2c7d70a82b164367691、安装配置PhantomJS#yum-yinsta..
分类:
Web程序 时间:
2016-06-23 19:11:39
阅读次数:
535
一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特。由于自己就读于一所男女比例三比一的工科院校……写代码之余看看美女也是极好的放松方式。但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了。于是,我开始考虑用万能的python来解决问题。我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?page...
分类:
编程语言 时间:
2016-06-16 23:24:11
阅读次数:
1082
环境准备 1. 安装python; 2. 安装pip; 3. 通过pip安装selenium: 4. 下载phantomJS的包并解压缩,将bin下的phantomjs.exe文件复制粘贴到python文件夹的scripts目录下(当然也可以在程序中动态的为webdriver.PhantomJS(" ...
分类:
Web程序 时间:
2016-06-12 23:24:57
阅读次数:
573
一、网络爬虫的一般作法 一、网络爬虫的一般作法 1.1 基于Socket通信编写爬虫1.2 基于HttpURLConnection类编写爬虫1.3 基于apache的HttpClient包编写爬虫1.4 基于phantomjs之类的无头(无界面)浏览器1.5 基于Selenium之类的有头(有界面) ...
分类:
其他好文 时间:
2016-06-09 18:42:02
阅读次数:
198
python定时杀进程
之前写了个python脚本用selenium+phantomjs爬新帖子,在循环拉取页面的过程中,phantomjs总是block住,使用WebDriverWait设置最长等待时间无效。用firefox替换phantomjs无改善因为这个脚本不会长期使用,因此采取临时办法,新开一个子线程固定周期杀死phantomjs进程,这样selenium就会在block最多不超过...
分类:
编程语言 时间:
2016-06-06 17:06:58
阅读次数:
461