爬虫5 scrapy框架2 全站爬取cnblogs, scarpy请求传参, 提高爬取效率, 下载中间件, 集成selenium, fake-useragent, 去重源码分析, 布隆过滤器, 分布式爬虫, java等语言概念补充, bilibili爬视频参考
1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 示例: # cnblogs_crawl/cnblogs_crawl/spiders/cnblogs.py ...
分类:
编程语言 时间:
2020-04-13 01:13:46
阅读次数:
117
安装chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 安装依赖库 安装必要的库 yum install mesa-libOSMesa-devel gnu-free ...
分类:
系统相关 时间:
2020-04-13 01:12:58
阅读次数:
137
基于selenium实现自动化爬取数据 如果想具体查看selenium自动化模块的更多功能请看我的博客测试分类中有介绍 selenium 概念:基于浏览器自动化的模块 自动化:可以通过代码指定一系列的行为动作,然后将其作用到浏览器中。 pip install selenium selenium和爬虫 ...
分类:
其他好文 时间:
2020-04-12 22:47:16
阅读次数:
67
在爬虫已启动,就打开一个 chrom 浏览器,以后都用这一个浏览器来爬数据 1 在爬虫中创建 bro 对象 在 middlewares.py 中定义一个 class: spider中的代码: 下载中间件使用 把 selenium 集成到 scrapy 中主要改变的就是这两处地方 以上的在 scrap ...
分类:
其他好文 时间:
2020-04-12 20:51:32
阅读次数:
71
一、Python安装及selenium的安装 1、安装Pythonhttps://www.Python.org2、安装setuptools、distribute、piphttps://pypi.python.org/pypi/setuptools https://pypi.python.org/py ...
分类:
编程语言 时间:
2020-04-12 20:48:39
阅读次数:
74
1、控制浏览器大小 set_window_size() 设置浏览器大小 该方法有两个参数,第一个参数是宽,第二个是高 maximize_window() 设置浏览器全屏显示,无参数 chrome谷歌浏览器在控制浏览器大小时,报错 : unknown error: cannot get automat ...
分类:
编程语言 时间:
2020-04-12 20:44:39
阅读次数:
99
1、id定位find_element_by_id() 通过id属性定位元素,如果id是动态变化的话不能用id来进行定位 2、name定位find_element_by_name() 通过name属性定位元素,不过有时候一个页面中会有多个name名相同的,这时就不能用name来定位啦 3、class定 ...
分类:
编程语言 时间:
2020-04-12 20:42:30
阅读次数:
76
1、线性测试 优势:每一个脚本都是完整独立的,每一个脚本对应一个测试用例 缺点:开发成本高,会有重复操作重复脚本;维护成本也高,修改重复操作的脚本时,要逐一进行修改。 2、模块化驱动测试 把重复的操作独立成公共模块,当用例执行中需要这一模块操作时调用,这样最大限度的消除重复,提高测试用例的可维护性。 ...
分类:
编程语言 时间:
2020-04-12 20:25:29
阅读次数:
68
1. 启动hub 在浏览器访问:http://127.0.0.1:4444/grid/console,进行验证。 2.启动node,注册到hub 3.脚本 4.运行 ...
分类:
其他好文 时间:
2020-04-12 14:27:36
阅读次数:
57
1.1 Selenium Grid简介 Selenium Grid组件专门用于远程分布式测试或并发测试,通过并发执行测试用例的方式可以提高测试用例的执行速度和效率,解决界面自动化测试执行速度过慢的问题。 Selenium Grid使用Hub和Node模式,一天计算机作为Hub(管理中心)管理其他多个 ...
分类:
其他好文 时间:
2020-04-12 12:39:06
阅读次数:
69