今日重点: 1、代理服务器的设置 2、模拟登陆过验证码(静态验证码) 3、cookie与session 4、线程池 1、代理服务器的设置 有时候使用同一个IP去爬取同一个网站,久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个问题呢? 解决思路: 如果我们爬取网站,对方服务器显示的是别人的IP ...
分类:
其他好文 时间:
2019-09-29 12:43:24
阅读次数:
84
目录 "1. 包" "2. time模块" " 1. 优先掌握" "2. 了解" "3. datetime模块" " 1. 优先掌握" "4. random模块" " 1. 优先掌握" " 2. 了解" "5. hashlib模块和hmac模块" "6. typing模块" "7. requests ...
分类:
系统相关 时间:
2019-09-28 23:28:16
阅读次数:
109
在web后台开发过程中,会遇到需要向第三方发送http请求的场景,python中的requests库可以很好的满足这一要求,这里简要记录一下requests模块的使用! 说明: 这里主要记录一下requests模块的如下几点: 1.requests模块的安装 2.requests模块发送get请求 ...
分类:
其他好文 时间:
2019-09-28 17:47:08
阅读次数:
90
1.Requests是什么 首先Requests是HTTP库,在爬虫中用于请求的相关功能。 而且requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。 默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装。 2.Requests的 ...
分类:
其他好文 时间:
2019-09-27 10:25:18
阅读次数:
70
一、写在前面 Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 ...
分类:
编程语言 时间:
2019-09-25 00:52:45
阅读次数:
80
回顾 5种反爬机制 robots.txt:反爬机制,防君子不防小人 UA检测:UA伪装 数据加密 图片懒加载 代理ip requests模块爬取流程: 指定url 发起请求 获取页面数据 数据解析 持久化存储 bs4解析: 环境安装:bs4、lxml解析器 实例化bs对象,将页面源码数据加载到该对象 ...
分类:
编程语言 时间:
2019-09-19 23:28:00
阅读次数:
178
前言:接口自动化实现自动化脚本比较稳定,主要用到requests模块,后面我会把这个模块单独拉出来写一下。 一、环境安装 1.用pip安装requests模块 注意:pip很容易就会版本升级, 方法1:检测并更新 方法2: ?先卸载: ?在用:easy_install.exe安装 二、get请求 ? ...
分类:
编程语言 时间:
2019-09-12 21:01:39
阅读次数:
101
1、列举常用模块 time模块、random模块、os模块、sys模块、re模块、requests模块 模块:简单来说就是一堆代码来实现某些功能,他们是已经写好的.py文件,只需要用import来调用即可。 分类:自定义模块、内置标准模块、开源模块 2、如何安装第三方模块 pip install 模 ...
分类:
其他好文 时间:
2019-09-11 18:04:53
阅读次数:
82
1.什么是代理? ? 代理:将网络请求发送给代理服务器,通过代理服务器做中介,将请求转发给目标服务器并将响应返回,从而完成网络通信。 2.为什么使用代理? ? 使用爬虫抓取批量资源时,在短时间内会对服务器发起高频请求,服务器会判定这些高频请求不是“普通访客”发起的,从而拒绝该IP的发起的请求,但是我 ...
分类:
其他好文 时间:
2019-09-09 12:59:16
阅读次数:
77
昨日回顾: requests模块使用过 response=request。get() response。text response。content 解决字符编码问题 response。encoding=‘utf 8’ 1爬虫三部曲 发送请求 解析数据 保存数据 2爬取豆瓣电影接口 分析目标网站请求流 ...
分类:
其他好文 时间:
2019-08-29 21:36:35
阅读次数:
123