一、简介 什么是requests模块: requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下: 手动 ...
分类:
其他好文 时间:
2019-04-29 20:54:51
阅读次数:
147
urllib python 中自带的一个基于爬虫的模块 作用: 可以使用代码 模拟浏览器发起请求。 request parse 使用流程: 指定url 针对指定的url 发起请求 获取服务器响应的数据 持久化存储 urllib python 中自带的一个基于爬虫的模块 作用: 可以使用代码 模拟浏览 ...
分类:
其他好文 时间:
2019-04-26 13:09:24
阅读次数:
131
selenium介绍: selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种常见的浏览器 官网: ...
分类:
其他好文 时间:
2019-04-17 15:13:37
阅读次数:
156
[TOC] 02. 爬取get请求的页面数据 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urll ...
分类:
其他好文 时间:
2019-04-07 22:02:23
阅读次数:
196
1. 简单说明爬虫原理 程序模拟浏览器送请求来获取网页代码,提取出有用的数据,储存起来。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器提交请求 >下载网页代码 >解析成页面 2).使用 requests 库抓取网站数据; requests.get(url) 获取校园新闻首页html ...
分类:
其他好文 时间:
2019-03-31 23:18:14
阅读次数:
221
博客要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON ...
分类:
其他好文 时间:
2019-03-30 18:43:04
阅读次数:
160
1.首先获取网页内容的方法 html = requests.get(url,headers = headers,proxies= proxys) header 指模拟浏览器头,proxys代理IP,requests指Python获取内容的对象 2.这样一句话就可以快速获取网页内容了,获取到了网页内容 ...
分类:
编程语言 时间:
2019-03-30 13:26:42
阅读次数:
135
使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制。它的应用,使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹,因此无法被网站直接识别和拦截。 这是不是就意味着sel ...
分类:
Web程序 时间:
2019-03-26 15:23:51
阅读次数:
493
1. 简单说明爬虫原理 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; HTTP协议的作用原理包括四个步骤: ①连接:Web浏览器与Web服务 ...
分类:
其他好文 时间:
2019-03-26 13:45:26
阅读次数:
147
介绍 基于GET请求 带参数的GET请求->params 带参数的GET请求->headers 带参数的GET请求->cookies 基于POST请求 发送post请求,模拟浏览器的登录行为 补充 响应Response response属性 编码问题 获取二进制数据 解析json Redirecti ...
分类:
其他好文 时间:
2019-03-12 21:07:41
阅读次数:
193