如果你已经掌握了爬虫基础,看了我前面三个基础再来继续看这一篇文章。 这篇文章主要讲解爬虫程序中必须要用到的python集合,如果你对集合很了解。那可以不用看。 在爬虫程序中,为了不重复爬取已经爬过的页面,我...
分类:
编程语言 时间:
2015-08-01 23:44:09
阅读次数:
308
Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*-
import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码
print html.getcode()#获取传入的参数
print html.geturl()#获取网页的h...
分类:
编程语言 时间:
2015-08-01 22:05:27
阅读次数:
144
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 这一节我们要了解一种队列--deque。在下面的爬虫基础...
分类:
编程语言 时间:
2015-08-01 19:19:09
阅读次数:
186
队列-deque
有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中
会反复的用到。
如果你没有记住,请你返回上一节。
http://blog.csdn.net/passer_zzy/article/details/47156109
这一节我们要了解一种队列--deque。在下面的爬虫基础中,我们也要反复的使用deque,来完成网址
的出队入队...
分类:
编程语言 时间:
2015-08-01 19:07:46
阅读次数:
131
#encoding:UTF-8
import urllib
import urllib.request
# data是一个字典,然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串
#最后和url合并为full_url
# urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包,开放网址的可扩展...
分类:
编程语言 时间:
2015-07-30 23:30:34
阅读次数:
201
#encoding:UTF-8
import?urllib
import?urllib.request
#?data是一个字典,然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串
#最后和url合并为full_url
#?urllib.request是一个库,隶...
分类:
编程语言 时间:
2015-07-30 21:35:50
阅读次数:
152
刚刚开始学。
目的地是两个,一个微博,一个贴吧
存入的话,暂时还没想那么多,先存到本地文件夹吧
ubuntu14.04 python 自带,
安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本
#安装版本4
apt-get install python-bs4 python-bs4-doc
开始
import...
分类:
编程语言 时间:
2015-07-27 00:24:38
阅读次数:
276
想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频,但是太罗嗦。顺便整理,而到现在为止,360不傻。它已演变,用原来的方式,有些bug,这接着说。正题例如以下:语言:python2.7.6模块:urllib,urllib2,re,time目标:输入随意词,抓到其联想词版本号:w1...
分类:
编程语言 时间:
2015-07-26 08:36:02
阅读次数:
610
import urllib
response = urllib.request.urlopen('http://math.sysu.edu.cn/main/default/index.aspx')
html = response.read()
html = html.decode('utf-8')
print(html)上述代码会出现如下错误:UnicodeDecodeError: 'utf-8'...
分类:
编程语言 时间:
2015-07-23 17:56:35
阅读次数:
206
Python爬虫入门(8):Beautiful Soup的用法上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们...
分类:
编程语言 时间:
2015-07-22 01:22:47
阅读次数:
183