一、背景 因为经常有爬虫数据处理的需求,之前一直用的多线程+requests方式爬虫,但是这种方式有两个问题: 1、当请求很多,并发稍微多一点的时候电脑特别卡 2、每次变更请求包,比如post换get,需要用不同的方式解析出header等数据不是很方便 主要基于这两个原因,搞了一个基于socket+ ...
分类:
其他好文 时间:
2021-02-27 13:13:04
阅读次数:
0
也不知道为什么喜欢叫爬虫 搞明白原理之后原来就是解析网页代码获取关键字符串 现在的网页有很多解析出来就是JS了,根本不暴露资源地址 依赖一个JSOUP,其他靠百度CV实现 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dep ...
分类:
编程语言 时间:
2021-02-26 13:24:45
阅读次数:
0
为了通过爬虫快速获取网站中的信息,我们通常将第一次爬取的网页中的url形成一个待爬取的列表 为了访问网站以及对网站源代码进行分析,这里使用urllib的request库获取网页源代码,使用lxml库对网页进行结构分析。 首先引用需要的库 import urllib.request import lx ...
分类:
编程语言 时间:
2021-02-26 13:00:47
阅读次数:
0
from selenium import webdriver import time import json wb = webdriver.Chrome() wb.get('https://www.baidu.com') wb.maximize_window() time.sleep(3) # 登录 ...
分类:
编程语言 时间:
2021-02-26 12:56:21
阅读次数:
0
(目录) UI自动化测试过程中,执行某个动作后,页面元素的加载(ajax动态加载)需要一定的时间,selenium WebDriver提供了几种等待方式,Appium也继承了WebDriver API,所以selenium和appium 等待的实现方式相同。下面介绍WebDriver的等待方式。 H ...
分类:
移动开发 时间:
2021-02-25 12:13:02
阅读次数:
0
1、开发犯低级错误怎么办? 开发首先要规范好编码,出低级错时不要指责,内心指出错误。让他们自己进行测试,反思找出错误。 2、你进行过哪些测试,擅长什么? 我主要从事web测试,搭建环境,对程序进行集成测试、系统测试、回归测试。还有编写测试用例,使用手册,功能测试文档。单元测试:测试的最早期阶段,焦点 ...
分类:
其他好文 时间:
2021-02-25 12:03:01
阅读次数:
0
读取节点文本值和,属性值 # -*- coding: UTF-8 -*- from xml.dom import minidom dom=minidom.parse('F:\\python_project\\爬虫\\双色球\\shuangseqiu.xml') root=dom.documentEl ...
分类:
编程语言 时间:
2021-02-24 13:10:12
阅读次数:
0
expected_conditions模块: 是Selenium的一个子模块,selenium.webdriver.support.expected_conditions 可以对网页上元素是否存在进行判断,一般用于断言或与WebDriverWait配合使用 1 import time 2 from ...
分类:
Web程序 时间:
2021-02-22 11:51:54
阅读次数:
0
arr = ["http://music.163.com/song/media/outer/url?id=1820550501.mp3", "http://music.163.com/song/media/outer/url?id=1820550501.mp3", "http://music.163 ...
分类:
编程语言 时间:
2021-02-20 11:52:43
阅读次数:
0
第一步:创建Maven项目 在IDEA中创建一个maven项目:打开IDEA后,File--New--Project;选择maven,点击next 第二步:引入selenium框架/依赖 在pom.xml中添加依赖,接着点击右上角刷新按钮即可。 <dependencies> <dependency> ...
分类:
编程语言 时间:
2021-02-17 14:33:57
阅读次数:
0