转自https://www.cnblogs.com/wupeiqi/articles/6283017.html 一.requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它 ...
分类:
其他好文 时间:
2018-06-04 14:11:01
阅读次数:
168
import urllib.request url = 'http://www.baidu.com/'response = urllib.request.urlopen(url=url) print(response.read().decode()) #默认utf8解码 #直接解码有可能会出现下图错 ...
分类:
Web程序 时间:
2018-06-04 11:31:40
阅读次数:
143
python3 抓取贴吧页面 1 from urllib import request, parse 2 import sys 3 4 5 def loadPage(url, filename): 6 """ 7 作用: 根据url发送请求, 获取服务器相应文件 8 url: 需要爬取的url地址 ...
分类:
其他好文 时间:
2018-06-04 11:27:44
阅读次数:
185
import urllib.parse 如: url = 'https://www.baidu.com/index?name=xiaoming&age=20' #将标准的url进行编码res = urllib.parse.quote(url) print(res) #结果https%3A//www. ...
分类:
Web程序 时间:
2018-06-04 11:25:24
阅读次数:
176
urllib在处理网页验证和Cookies时,需要写Opener和Handler来处理,为了更方便实现这些操作,就有了requests 基本实例 urllib库的urlopen()方法实际上是以GET方式请求网页,对应requests中的响应方法就是get() 调用get()方法实现和urlopen ...
分类:
其他好文 时间:
2018-06-03 23:45:54
阅读次数:
195
一、开发环境配置-python3和相关库 二、开发环境配置-安装数据库 三、开发环境配置-存储库、Web库、App爬取相关库 四、爬虫框架安装 五、HTTP基本原理、网页基础 六、爬虫基本原理、代理 七、urllib库(一)发请求 八、urllib库(二)处理异常 九、urllib库(三)解析链接 ...
分类:
编程语言 时间:
2018-06-03 23:27:45
阅读次数:
190
import urllib, urllib.request, urllib.parse import random import zlib import re import os, time SavePath="Save" def InitDev(): AllHanzi = "" if not os... ...
分类:
编程语言 时间:
2018-06-03 17:28:06
阅读次数:
261
利用urllib的robotparser模块,可以实现网站Robots协议的分析 1、Robots协议 Robots协议也叫爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫可搜索引擎哪些页面可以抓取,哪些不行,通常是一个叫做robots.txt的文本文件,一般放在网站的根目录 当搜索爬虫访 ...
分类:
Web程序 时间:
2018-06-03 17:26:53
阅读次数:
196
urllib.urlencode()urllib 和 urllib2 都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例;但是 urllib 提供 urlencode 方法用来GET查询字... ...
分类:
Web程序 时间:
2018-06-03 16:24:46
阅读次数:
248
处理异常 urllib的error模块定义了由request模块产生的异常 1、URLError URLError类来自urllib库的error模块,继承自OSError类,是error异常模块的基类,由request模块产生的异常都可以通过捕获这个类来处理 它具有一个属性:reason,返回的错 ...
分类:
Web程序 时间:
2018-06-03 10:43:35
阅读次数:
196