在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadef ...
分类:
编程语言 时间:
2017-01-03 20:49:21
阅读次数:
250
一般出现乱码是因为文本采用了GBK编码格式,Sublime Text默认不支持GBK编码。 安装包管理器 简单安装 使用Ctrl+`快捷键或者通过View->Show Console菜单打开命令行,粘贴如下代码: import urllib.request,os; pf = ‘Package Con ...
分类:
其他好文 时间:
2017-01-01 23:37:12
阅读次数:
279
import urllib.request import re ##def downback(a,b,c): ## '''' ## a:已经下载的数据块 ## b:数据块的大小 ## c:远程文件的大小 ## ''' ## per = 100.0 * a * b / c ## if per > 10... ...
分类:
其他好文 时间:
2017-01-01 12:34:51
阅读次数:
1060
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 ...
分类:
编程语言 时间:
2016-12-30 16:34:33
阅读次数:
153
1、输入“!”或“html:5”,然后按Tab键: html:5 或!:用于HTML5文档类型 html:xt:用于XHTML过渡文档类型 html:4s:用于HTML4严格文档类型 2、轻松添加类、id、文本和属性 p#foo 补充IDp.foo 补充类h1{foo} 和 a[href=#] 为h ...
分类:
其他好文 时间:
2016-12-30 15:32:57
阅读次数:
319
爬遍整个域名 六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人。通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人。 1. 获取一个界面的所有连接 1 from urllib.request import urlopen 2 fro ...
分类:
编程语言 时间:
2016-12-29 13:16:48
阅读次数:
357
最近这几天,学习了一下python,对于爬虫比较感兴趣,就做了一个简单的爬虫项目,使用Python的库Tkinsert做了一个界面,感觉这个库使用起来还是挺方便的,这个程序中使用到了正则表达式(re模块),对爬回的网页进行匹配分析,最后通过urllib模块中urlretrieve()这个方法进行视频 ...
分类:
编程语言 时间:
2016-12-29 08:01:15
阅读次数:
243
import urllib import requests from xml.etree import ElementTree as ET root = ET.XML(open('D:\E\semantic\\a.xml','r',encoding = 'utf-8').read()) print(... ...
分类:
其他好文 时间:
2016-12-28 19:57:37
阅读次数:
178
1. 一次简单的网页访问 urllib 是一个标准的python库(意味着不需要安装任何附件的东西来运行这个demo),包含了通过网络请求数据的方法,处理cookies,甚至更改metadata比如headers和用户代理。 urlopen 这个方法用来通过网络访问远程数据,就是发送一个get请求到 ...
分类:
编程语言 时间:
2016-12-27 20:29:17
阅读次数:
181
sublime text 3 安装package contol: 快捷键:ctrl+`进入命令行输入 然后修改host增加 50.116.34.243 sublime.wbond.net 点击Package Control: install packge ...
分类:
其他好文 时间:
2016-12-27 14:02:37
阅读次数:
195