python2中,有urllib和urllib2两个库,在python3中统一为urllib库 它是python内置的HTTP请求库,包含了4个模块: request:最基本的HTTP请求模块,用来模拟发送请求,就行浏览器传入URL一样,给库方法传入URL和额外的参数就可以实现 error:异常处理 ...
分类:
Web程序 时间:
2018-06-02 23:59:38
阅读次数:
412
import urllib.requestimport reimport os url = "http://www.budejie.com/" # 爬的地址 def get_page(url): page = urllib.request.urlopen(url).read() # 获取到该地址的所 ...
分类:
编程语言 时间:
2018-06-02 22:51:44
阅读次数:
259
互联网是一张大网,爬虫就是在网上爬行的蜘蛛,爬行到的网页就相当于访问了该页面 爬虫就是获取网页并提取和保存信息的自动化程序 1、获取网页 获取网页,就是获取网页的源代码,从中提取有用的信息 关键就是构造请求发送给服务端,然后接受响应并解析 python提供了许多库来实现,比如urllib、reque ...
分类:
其他好文 时间:
2018-06-02 12:23:27
阅读次数:
187
urllib库的使用,非常简单。 只要几句代码就可以把一个网站的源代码下载下来。 官方文档:https://docs.python.org/2/library/urllib2.html urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, ...
分类:
编程语言 时间:
2018-06-02 11:40:01
阅读次数:
204
```python
from urllib import response,request,parse,error
from http import cookiejar if __name__ == '__main__': #response = urllib.request.urlopen("ht... ...
分类:
编程语言 时间:
2018-06-01 22:15:03
阅读次数:
259
1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START =... ...
分类:
Web程序 时间:
2018-06-01 20:40:36
阅读次数:
327
一、介绍 requests是Python的一个HTTP客户端库,跟urllib,urllib2类似,不过requests的优势在于使用简单,相同一个功能,用requests实现起来代码量要少很多。毕竟官方文档都很直白的说: python的标准库urllib2提供了大部分需要的HTTP功能,但是API ...
分类:
编程语言 时间:
2018-05-31 16:42:11
阅读次数:
190
1 from urllib import request# 1 使用Proxyhandler 传入构建handler 2 handler=request.ProxyHandler({'http':'10.0.0.1:8080'})# 2 使用创建的handler 构建一个opener 3 opene... ...
分类:
其他好文 时间:
2018-05-31 13:20:36
阅读次数:
189
抓包:charles Fiddler HTTP请求处理,urllib、requests 专门获得网络连接的库 Scrapy框架:(Scrapy,Pyspider) 高定制性高性能(异步网络框架twisted),所以数据下载速度非常快,提供了数据存储、数据下载、提取规则等组件 爬虫使用场景:通用爬虫、 ...
分类:
其他好文 时间:
2018-05-29 01:39:25
阅读次数:
133