import urllib.requestimport restarturl="http://wooyun.org/searchbug.php?q=%E9%87%91%E8%9E%8D"def get_html_response(url): html_response = urllib.req...
分类:
编程语言 时间:
2014-08-05 22:27:31
阅读次数:
246
/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/??? 0x1.urllib.quote(‘要编码的字符串‘) 如果你要在url请求里面放入中文...
分类:
编程语言 时间:
2014-07-26 03:36:37
阅读次数:
334
一 生词 1 determine 决定vt e.g. Your attitude,not your aptitude,will determine your altitude.决定你人生高度的不是你的才能,而是你的态度。 结束vi e.g. The lease determines next mon...
分类:
其他好文 时间:
2014-07-21 23:29:41
阅读次数:
297
what you get/want reflects who you were.what you concern or give decides who you'll be.
分类:
其他好文 时间:
2014-07-18 20:10:12
阅读次数:
211
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下( 不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:
编程语言 时间:
2014-07-12 22:45:47
阅读次数:
341
虽然上一篇博客中我们可以连续地阅读章节了,但是,难道每一次看小说都运行一下我们的 Python 程序?连记录看到哪里都不行,每次都是重新来过?当然不能这样,改!现在这么多小说阅读器,我们只需要把我们要的小说抓取到本地的 txt 文件里就好了,然后自己选个阅读器看,怎么整都看你了。
其实上个程序我们已经完成了大部分逻辑,我们接下来的改动只需要把抓取到每一章的时候不用显示出来,而是存入 txt 文件之中。另外一个是程序是不断地根据下一页的 Url 进行抓取的,那么什么时候结束呢?注意当到达小说的最后一章...
分类:
编程语言 时间:
2014-07-12 18:35:14
阅读次数:
279
本文记录下用来爬虫主要使用的两个库。第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib;第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦。requests使用,1直接使用库内提供的get、post等函数,在比简单的情况下使用,2利用session...
分类:
编程语言 时间:
2014-07-11 18:51:34
阅读次数:
250
Differences Between Xcode Project Templates for iOS AppsWhen you create a new iOS app project in Xcode, you get to choose between several project temp...
分类:
移动开发 时间:
2014-07-08 10:17:14
阅读次数:
367