今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨。。。
韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
可以看出左边是文章列表,而且不止一页,我们先从最简单的开始,先对一篇文章进行下载,再研究对一页所有的文
章进行下载,最后再研究对所有的文章下载。...
分类:
编程语言 时间:
2014-07-22 22:59:35
阅读次数:
330
最近在做语义方面的问题,需要反义词。就在网上找反义词大全之类的,但是大多不全,没有我想要的。然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把“老师”-“学生”,“医生”-“病人”这样对立关系的反义词查出来。一开始我想把网站中数据库...
分类:
编程语言 时间:
2014-05-16 08:10:36
阅读次数:
465
1 #!/usr/bin/python 2 #coding:utf8 3 import re 4
import urllib 5 6 def gethtml(url): 7 page=urllib.urlopen(url) 8
html=page.read() 9 ret...
分类:
编程语言 时间:
2014-05-10 18:39:47
阅读次数:
399
这几天闲着没事,写了个python爬虫,专把堆糖上的摄影类图片扒下来...
分类:
编程语言 时间:
2014-05-09 01:05:09
阅读次数:
295
先看看列表里的__setslice__方法函数的帮助文档
help(list.__setslice__)
帮助文档如下所示:
__setslice__(...)
x.__setslice__(i, j, y) x[i:j]=y
Use of negative indices is not supported.
从帮助文档可以看出这个方法函数可...
分类:
编程语言 时间:
2014-05-09 01:01:56
阅读次数:
326
Description Yesterday your dear cousin Coach
Pang gave you a new 100MB hard disk drive (HDD) as a gift because you will get
married next year. But yo....
分类:
其他好文 时间:
2014-05-07 10:04:47
阅读次数:
382
t = '''www.jeapedu.com
www.chinagame.me
www.quanzhan.org
'''
print t.splitlines()
Python的split方法函数可以分割字符串成列表,默认是以空格作为分隔符sep来分割字符串。
In [1]: s = "www jeapedu com"
In [2]: p...
分类:
编程语言 时间:
2014-05-07 02:37:08
阅读次数:
478