废话不多说,直接说重点: 刚开始做的时候,代理IP,头部信息池,都已经做好了,使用selenium+phantomjs获取js动态加载后的源码 起初挺好的,能出来动态加载后的源码,但是运行了几次之后,电脑有点卡顿(估计是运存太小),源码就获取不到了,返回的数据 都是空数据,以至于都是出错 在做的时候 ...
分类:
编程语言 时间:
2017-07-04 20:03:58
阅读次数:
609
本篇文章涉及到的知识点有:Python爬虫,MySQL数据库,html/css/js基础,selenium和phantomjs基础,MVC设计模式,django框架(Python的web开发框架),apache服务器,linux(centos 7为例)基本操作。因此适合有以上基础的同学学习。 声明: ...
分类:
其他好文 时间:
2017-07-01 01:07:52
阅读次数:
306
1.参考 使用 headless chrome进行测试 2.概念 Headless模式解决了什么问题: 自动化工具例如 selenium 利用有头浏览器进行测试,面临效率和稳定性的影响,所以出现了 Headless Browser, 3年前,无头浏览器 PhantomJS 已经如火如荼出现了,紧跟着 ...
分类:
Web程序 时间:
2017-07-01 00:11:16
阅读次数:
312
#conding:utf-8 import unittest from selenium import webdriver from urllib.request import * import re import time from bs4 import BeautifulSoup #测试类 cl... ...
分类:
编程语言 时间:
2017-06-29 19:12:00
阅读次数:
194
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 PhantomJS 可以用于 页面自动化 , 网络监测 , 网页截屏 ...
分类:
Web程序 时间:
2017-06-28 18:45:50
阅读次数:
213
headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Us... ...
分类:
Web程序 时间:
2017-06-26 23:51:34
阅读次数:
441
selenium是一个web测试应用框架也可以拿来做爬虫。 1.安装selenium模块 pip install -U selenium 2.安装selenium模块后需要有相应的浏览器驱动 A.使用phantomjs phantomjs是无界面的测试浏览器 我用的是phantomjs-2.1.0- ...
分类:
编程语言 时间:
2017-06-24 19:48:43
阅读次数:
263
[Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息 ...
分类:
编程语言 时间:
2017-06-23 12:57:45
阅读次数:
244
private static void Main(string[] args) { Parallel.For(0, 20, i => { var url = "http://www.baidu.com"; IWebDriver driver = new PhantomJSDriver(GetPhan ...
分类:
Web程序 时间:
2017-06-22 10:14:36
阅读次数:
382
[Python爬虫] 之十九:Selenium +phantomjs 利用 pyquery抓取超级TV网数据 ...
分类:
编程语言 时间:
2017-06-20 15:29:41
阅读次数:
237