码迷,mamicode.com
首页 >  
搜索关键字:selenium 爬虫    ( 16232个结果
python 页面基类 Page封装 →driver层的封装(最底层的封装Page)
# coding=utf-8 import time from selenium.common.exceptions import NoSuchElementException from selenium.webdriver import ActionChains from selenium.web ...
分类:编程语言   时间:2020-09-17 22:22:43    阅读次数:27
怎么避开反爬虫机制?
现在网络爬虫抓取数据的技术已经越来越成熟,使用HTTP让爬虫技术的效率越来越高。但爬虫对被抓取网站没有任何好处,所以设置了反爬虫机制,就要想办法来解决。那么,怎么绕过反爬虫机制?1、模拟正常用户。反爬虫机制还会利用检测用户的行为来判断,例如Cookies来判断是不是有效的用户。2、动态页面限制。有时候发现抓取的信息内容空白,这是因为这个网站的信息是通过用户的XHR动态返回内容信息。解决这种问题就要
分类:其他好文   时间:2020-09-17 21:39:30    阅读次数:28
selenium---通过JS语法操作页面元素
做过web测试的小伙伴们都知道,web元素现在很多是JS写的,那么既然是JS写的,可以通过JS语言去操作页面,来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过JS来定位元素呢?问题又来了selenium中如何调用JS语法呢? 调用JS语法 调用JS语法需要用到selenium中 ...
分类:Web程序   时间:2020-09-17 20:01:12    阅读次数:46
Python网络爬虫(实践篇)
欢迎关注公众号:Python爬虫数据分析挖掘,回复【开源源码】免费获取更多开源项目源码 01 快速爬取网页 1.1 urlopen()函数 import urllib.request file=urllib.request.urlopen("http://www.baidu.com") data=f ...
分类:编程语言   时间:2020-09-17 19:34:00    阅读次数:33
Python+Selenium自动化测试之163框架切换
import time from selenium import webdriver driver = webdriver.Chrome() driver.get("https://email.163.com") time.sleep(2) iframe = driver.find_elements ...
分类:编程语言   时间:2020-09-17 18:46:29    阅读次数:27
一个爬取壁纸的爬虫代码
注:其中第一页需要手动改一些url,默认从第二页开始爬。第一页因为那个下一页的xpath跟其他的页码有不同,其实还有很多东西可以优化可以增加的,我也懒得去再改了 代码: import requests from lxml import etree import os class Bizi(objec ...
分类:其他好文   时间:2020-09-17 18:16:40    阅读次数:43
PHP爬虫 获取 Bilibili 视频封面图
原文链接 [PHP] 纯文本查看 复制代码 ? 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 <?php function curl($url ...
分类:Web程序   时间:2020-09-17 17:38:51    阅读次数:34
【Selenium自动化】(基础篇2)开发环境搭建
【Selenium自动化】开发环境搭建 1、下载安装Python 下载地址:https://www.python.org 安装时,勾选上:Add Python to PATH 2、使用Python自带的pip 安装selenium 在命令行输入:pip install selenium 安装成功后, ...
分类:其他好文   时间:2020-09-17 16:24:21    阅读次数:28
网络安全师教你:钟馗之眼网络空间搜索引擎使用教程
一、背景介绍Zoomeye中文名为“钟馗之眼”,它定位于网络空间搜索引擎,能对暴露在公网的主机设备及网站组件进行全方位搜索(只要有IP地址即可搜索到),发现其中的漏洞,揪出网络中“藏着掖着的问题”。与谷歌爬虫原理相类似,Zoomeye运用知道创宇研发的爬虫技术,可识别网站用了哪些第三方组件,如:Apache、IIS、discuz、phpwind等。一旦哪个组件出了问题,即可知道该组件的影响面(地域
分类:其他好文   时间:2020-09-17 13:54:50    阅读次数:46
node 通过 Promise Pool 实现多进程限制
Promise Pool 在自己工作生活中,有时候会自己写一下小工具,来代替人工去操作一些事情,比如从网页上下载图片时,需要限制同时下载的数量,防止被网站拉入黑名单,就需要使用一定的方法来控制同时进行的任务数了 之前自己写过python脚本来爬虫下载图片,但还是对python还是不太熟,对js却熟悉 ...
分类:系统相关   时间:2020-09-17 13:20:00    阅读次数:32
16232条   上一页 1 ... 34 35 36 37 38 ... 1624 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!