注:文章原文为Dr. Charles Severance 的 《Python for Informatics》。文中代码用3.4版改写,并在本机测试通过。 12.5 HTML分析和网页抓取 urllib库一项最常用的功能是抓取网页。就是我们编写一个程序,将自己伪装成网页浏览器,在获取网页之后,再以查 ...
分类:
编程语言 时间:
2016-04-24 21:56:55
阅读次数:
273
requests是Python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。 我也看了下r ...
分类:
编程语言 时间:
2016-04-23 13:26:47
阅读次数:
283
一:Sublime Text 中需要先安装Package Control。(如果有则无需安装) 安装方法:打开Sublime Text控制台(快捷键Ctrl+`),在控制台粘贴以下代码,按回车执行。 1 import urllib.request,os,hashlib; h = '2915d1851 ...
分类:
Web程序 时间:
2016-04-23 01:31:20
阅读次数:
202
速记一下,后面补充。urllib.parse.urlencode
urllib.parse.quote
urllib.parse.quote_plus#斜线
urllib.parse.unquote***walker***
分类:
编程语言 时间:
2016-04-22 16:47:04
阅读次数:
181
1、urllib模块 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作。本例试着打开google urlopen返回对象提供方法: - read() , readline() ,readlines() ...
分类:
编程语言 时间:
2016-04-22 11:55:43
阅读次数:
248
API定义: urllib.request.urlretrieve(url,filename=None,reporthook=None, data=None) 利用urlretrieve() 将数据下载到本地。 - 参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临 ...
分类:
编程语言 时间:
2016-04-20 11:40:43
阅读次数:
327
作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版。今天看到老外写的一篇《Python: difference between urllib and urllib2》才明白其中的区别。 You might be intrigued by the existenc ...
分类:
编程语言 时间:
2016-04-20 11:15:49
阅读次数:
174
Python强大的功能使得在写爬虫的时候显得十分的简单,但是Python2和Python3在这方面有了很多区别。 本人刚入门爬虫,所以先写一点小的不同。 以爬取韩寒的一篇博客为例子: 在Python2.7中,我们往往这样写: 但是在Python3中,这样做却行不通了,首先Python3将urllib ...
分类:
编程语言 时间:
2016-04-18 20:39:00
阅读次数:
144
1. 安装PackageControl import urllib.request,os,hashlib; h = '2915d1851351e5ee549c20394736b442' + '8bc59f460fa1548d1514676163dafc88'; pf = 'Package Contr ...
分类:
其他好文 时间:
2016-04-14 15:33:54
阅读次数:
116
from selenium import webdriverimport timeimport refrom bs4 import BeautifulSoupimport urllib #获取企业基本信息数据def get_enterprise_data(ename): #搜索页面链接地址 keyw ...
分类:
其他好文 时间:
2016-04-13 14:39:10
阅读次数:
1158