什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块 -->用来模拟发送请求 类似于输入网址敲击回车的过程urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots. ...
分类:
Web程序 时间:
2019-01-10 21:54:50
阅读次数:
217
首先,python 3.x中urllib库和urilib2库合并成了urllib库。 其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request() import urllib.r ...
分类:
编程语言 时间:
2019-01-10 13:13:33
阅读次数:
120
学爬虫我们已经了解了多种请求库,如 Requests、Urllib、Selenium 等。我们接下来首先贴近实战,了解一下代理怎么使用。 下面我们来梳理一下这些库的代理的设置方法。 1.获取代理 在做测试之前,我们需要先获取一个可用代理,搜索引擎搜索“代理”关键字,就可以看到有许多代理服务网站,在网 ...
分类:
编程语言 时间:
2019-01-08 15:25:54
阅读次数:
193
今天突发奇想小试爬虫,获取一下某素材站一些图片 实现步骤如下: 结果: 期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html 解决办法就是先发请求获得真正请求得到 ...
分类:
编程语言 时间:
2019-01-07 22:33:25
阅读次数:
199
1from urllib.robotparser import RobotFileParser 2import ssl 3from urllib.request import urlopen 4ssl._create_defaul ...
分类:
Web程序 时间:
2019-01-07 01:43:00
阅读次数:
154
1.URLError 2.HTTPError 3.最好的写法先捕获子类的错误在捕获父类 ...
分类:
Web程序 时间:
2019-01-07 01:39:27
阅读次数:
198
认证,代理,cookie 1from urllib.request import HTTPBasicAuthHandler, HTTPPasswordMgrWithDefaultRealm, build_opener 2from urlli ...
分类:
Web程序 时间:
2019-01-07 01:38:02
阅读次数:
171
1from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, urlencode, parse_qs, ...
分类:
Web程序 时间:
2019-01-07 01:33:40
阅读次数:
326
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 什么是requests模块 requests模块是python中原生的基 ...
分类:
其他好文 时间:
2019-01-06 22:03:23
阅读次数:
222
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析。本节中,我们来简单了解一下该模块的用法。 1. Robots协议 Robots协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引 ...
分类:
其他好文 时间:
2019-01-03 15:06:06
阅读次数:
185