selenium框架是目前基于web自动化的开源自动化工具。它能提供一系列函数,自动化模拟浏览器的各式各样的操作。 1,支持多浏览器:firefox,chrome,IE,Safari等 2,支持多种脚本语言:PHP,python,java,c#,ruby等 3,支持多操作系统:linux,ios,a ...
分类:
其他好文 时间:
2018-03-18 16:27:20
阅读次数:
184
目录 一、爬虫的定义 一、爬虫的定义 基本上网: 浏览器提交请求->下载网页代码->解析/渲染成页面。 爬 虫: 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 两者区别: 我们只是爬取对我们有用的数据 二、爬虫的流程 三、请求 3.1 请求的定义 Request:用 ...
分类:
其他好文 时间:
2018-02-26 11:43:10
阅读次数:
161
概述 概述 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序; 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/J ...
分类:
编程语言 时间:
2018-02-25 20:46:27
阅读次数:
381
Python爬虫 一、爬虫的本质是什么? 模拟浏览器打开网页,获取网页中我们想要的那部分数据 浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户 ...
分类:
编程语言 时间:
2018-02-21 18:17:00
阅读次数:
186
一、爬虫之requests a、介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) b、注意:requests发送请求是将网页内容下载来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的req ...
分类:
编程语言 时间:
2018-02-16 17:54:10
阅读次数:
250
引用: https://github.com/adamfisk/LittleProxy 拦截和操纵HTTPS流量,LittleProxy使用中间人(MITM)管理器。 LittleProxy的默认实现(SelfSignedMitmManager)具有相当有限的功能集。 为了更好地控制证书模拟,浏览器 ...
分类:
Web程序 时间:
2018-01-30 19:49:04
阅读次数:
1799
阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页 ...
分类:
其他好文 时间:
2018-01-26 15:47:43
阅读次数:
219
介绍 使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) 注意 requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 安装 pip3 in ...
分类:
编程语言 时间:
2018-01-20 12:38:50
阅读次数:
184
selenium模块 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。缺点是效率会变得很慢。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多 ...
分类:
其他好文 时间:
2018-01-19 18:53:08
阅读次数:
426
请求库,即可以模仿浏览器对网站发起请求的模块(库)。 requests模块 使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urllib,requests模块的api更加便捷 requests库发送请求将网页内容下载下来以后,并不会 ...
分类:
其他好文 时间:
2018-01-19 17:52:24
阅读次数:
231