码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 you-get    ( 2477个结果
python爬虫(三)--Python的set()
如果你已经掌握了爬虫基础,看了我前面三个基础再来继续看这一篇文章。 这篇文章主要讲解爬虫程序中必须要用到的python集合,如果你对集合很了解。那可以不用看。 在爬虫程序中,为了不重复爬取已经爬过的页面,我...
分类:编程语言   时间:2015-08-01 23:44:09    阅读次数:308
Python简单的爬虫
Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*- import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码 print html.getcode()#获取传入的参数 print html.geturl()#获取网页的h...
分类:编程语言   时间:2015-08-01 22:05:27    阅读次数:144
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 这一节我们要了解一种队列--deque。在下面的爬虫基础...
分类:编程语言   时间:2015-08-01 19:19:09    阅读次数:186
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 http://blog.csdn.net/passer_zzy/article/details/47156109 这一节我们要了解一种队列--deque。在下面的爬虫基础中,我们也要反复的使用deque,来完成网址 的出队入队...
分类:编程语言   时间:2015-08-01 19:07:46    阅读次数:131
Python爬虫基础(一)--简单的url请求
#encoding:UTF-8 import urllib import urllib.request # data是一个字典,然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串 #最后和url合并为full_url # urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包,开放网址的可扩展...
分类:编程语言   时间:2015-07-30 23:30:34    阅读次数:201
Python爬虫基础(一)--简单的url请求
#encoding:UTF-8 import?urllib import?urllib.request #?data是一个字典,然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串 #最后和url合并为full_url #?urllib.request是一个库,隶...
分类:编程语言   时间:2015-07-30 21:35:50    阅读次数:152
python 爬虫1 开始,先拿新浪微博开始
刚刚开始学。 目的地是两个,一个微博,一个贴吧 存入的话,暂时还没想那么多,先存到本地文件夹吧 ubuntu14.04  python 自带, 安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本 #安装版本4 apt-get install python-bs4 python-bs4-doc 开始 import...
分类:编程语言   时间:2015-07-27 00:24:38    阅读次数:276
python爬行动物集合360联想词搜索
想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频,但是太罗嗦。顺便整理,而到现在为止,360不傻。它已演变,用原来的方式,有些bug,这接着说。正题例如以下:语言:python2.7.6模块:urllib,urllib2,re,time目标:输入随意词,抓到其联想词版本号:w1...
分类:编程语言   时间:2015-07-26 08:36:02    阅读次数:610
Python 爬虫解码问题解决
import urllib response = urllib.request.urlopen('http://math.sysu.edu.cn/main/default/index.aspx') html = response.read() html = html.decode('utf-8') print(html)上述代码会出现如下错误:UnicodeDecodeError: 'utf-8'...
分类:编程语言   时间:2015-07-23 17:56:35    阅读次数:206
Python_爬虫4
Python爬虫入门(8):Beautiful Soup的用法上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们...
分类:编程语言   时间:2015-07-22 01:22:47    阅读次数:183
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!