废话不多说,直接贴代码,主要采用BeautifulSoup写的
# -*- coding: utf-8 -*-
"""
Created on Mon May 18 19:12:06 2015
@author: Administrator
"""
import urllib
import os
from bs4 import BeautifulSoup
impo...
分类:
编程语言 时间:
2015-05-19 10:44:07
阅读次数:
145
#出处:http://python.jobbole.com/81351/#确定url并抓取页面代码,url自己写一个import urllib,urllib2def getUrl(): page=1 url="http://www.qiushibaike.com/hot/page/"+s...
分类:
编程语言 时间:
2015-05-16 00:00:01
阅读次数:
370
Python + lxml获取豆瓣新书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件。
分类:
编程语言 时间:
2015-05-13 19:19:22
阅读次数:
256
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!!怒了,准备写个程序直接去爬廖雪...
分类:
编程语言 时间:
2015-05-13 18:52:31
阅读次数:
147
开始学习python,在网上找了一个扒糗事百科精华的爬虫,自己稍许的修改了一下,就可以正常的扒拉糗百精华,别人的代码不敢独占,就贴出来分享给大家,废话没有上代码: #?-*-?coding:?utf-8?-*-??
???
...
分类:
编程语言 时间:
2015-05-13 01:01:54
阅读次数:
209
这个编码格式真的是很闹心啊,看来真的得深入学习一下编码格式,要不这各种格式错误。
这个编码还和编辑器有关系,最开始的时候实在sublime Text里编辑的代码,运行起来卡卡的,特别顺畅,但突然发现它不支持raw_input和input,所以令临时换到了python官方提供的idle中。之后就出现了各种奇葩编码错误。。。。。。
程序大概意思就是,你输入一个城市的拼音,它就会返回这个城市的空气污...
分类:
编程语言 时间:
2015-05-09 16:40:09
阅读次数:
623
1.本文的目的是练习Web爬虫目标:1.爬去糗事百科热门段子2.去除带图片的段子3.获取段子的发布时间,发布人,段子内容,点赞数。2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- c...
分类:
编程语言 时间:
2015-05-08 21:51:04
阅读次数:
196
Description
Given four numbers, can you get twenty-four through the addition, subtraction, multiplication, and division? Each number can be used only once.
Input
The input consists of multi...
分类:
其他好文 时间:
2015-05-03 20:41:17
阅读次数:
136
总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:-------------------------------------------------------------------------------------------#cod..
分类:
编程语言 时间:
2015-05-01 20:05:16
阅读次数:
153
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。
1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。
2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。
3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:
其他好文 时间:
2015-04-29 23:34:54
阅读次数:
330