码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 you-get    ( 2477个结果
python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup impo...
分类:编程语言   时间:2015-05-19 10:44:07    阅读次数:145
#python爬虫:爬取糗事百科段子
#出处:http://python.jobbole.com/81351/#确定url并抓取页面代码,url自己写一个import urllib,urllib2def getUrl(): page=1 url="http://www.qiushibaike.com/hot/page/"+s...
分类:编程语言   时间:2015-05-16 00:00:01    阅读次数:370
Python爬虫之豆瓣-新书速递-图书解析
Python + lxml获取豆瓣新书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件。
分类:编程语言   时间:2015-05-13 19:19:22    阅读次数:256
一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!!怒了,准备写个程序直接去爬廖雪...
分类:编程语言   时间:2015-05-13 18:52:31    阅读次数:147
2015-05-12 python爬虫学习
开始学习python,在网上找了一个扒糗事百科精华的爬虫,自己稍许的修改了一下,就可以正常的扒拉糗百精华,别人的代码不敢独占,就贴出来分享给大家,废话没有上代码: #?-*-?coding:?utf-8?-*-?? ??? ...
分类:编程语言   时间:2015-05-13 01:01:54    阅读次数:209
python爬虫抓取全国pm2.5的空气质量(BeautifulSoup3)
这个编码格式真的是很闹心啊,看来真的得深入学习一下编码格式,要不这各种格式错误。 这个编码还和编辑器有关系,最开始的时候实在sublime Text里编辑的代码,运行起来卡卡的,特别顺畅,但突然发现它不支持raw_input和input,所以令临时换到了python官方提供的idle中。之后就出现了各种奇葩编码错误。。。。。。 程序大概意思就是,你输入一个城市的拼音,它就会返回这个城市的空气污...
分类:编程语言   时间:2015-05-09 16:40:09    阅读次数:623
Python爬虫实战-爬取糗事百科段子
1.本文的目的是练习Web爬虫目标:1.爬去糗事百科热门段子2.去除带图片的段子3.获取段子的发布时间,发布人,段子内容,点赞数。2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- c...
分类:编程语言   时间:2015-05-08 21:51:04    阅读次数:196
CSU1600:Twenty-four point(DFS)
Description Given four numbers, can you get twenty-four through the addition, subtraction, multiplication, and division? Each number can be used only once. Input The input consists of multi...
分类:其他好文   时间:2015-05-03 20:41:17    阅读次数:136
使用python编写简单网络爬虫(一)
总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:-------------------------------------------------------------------------------------------#cod..
分类:编程语言   时间:2015-05-01 20:05:16    阅读次数:153
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:其他好文   时间:2015-04-29 23:34:54    阅读次数:330
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!