参考url: http://blog.csdn.net/baronyang/article/details/9323463我的需求: 抓取数据生成的日志,日志中有部分是抓取失败的,需要将失败的发送到另一个部分,但是成功了的就不需要发送; 设置checkbox: function formatCK.....
分类:
其他好文 时间:
2014-07-22 22:42:13
阅读次数:
246
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:
其他好文 时间:
2014-07-19 15:13:58
阅读次数:
241
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279
用gitpull(该命令抓取数据到本地分支后,会自动进行merge操作)抓取远程数据到本地进行分支合并后,出现的一些问题:Q:Xcode无法打开项目S:在解决冲突文件时,对project.pbxproj文件的处理不当引起的,需要仔细鉴别冲突的部分,或者简单的就保留当前分支所属部分,删除合并的分..
分类:
其他好文 时间:
2014-07-13 14:50:50
阅读次数:
208
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下( 不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:
编程语言 时间:
2014-07-12 22:45:47
阅读次数:
341
虽然上一篇博客中我们可以连续地阅读章节了,但是,难道每一次看小说都运行一下我们的 Python 程序?连记录看到哪里都不行,每次都是重新来过?当然不能这样,改!现在这么多小说阅读器,我们只需要把我们要的小说抓取到本地的 txt 文件里就好了,然后自己选个阅读器看,怎么整都看你了。
其实上个程序我们已经完成了大部分逻辑,我们接下来的改动只需要把抓取到每一章的时候不用显示出来,而是存入 txt 文件之中。另外一个是程序是不断地根据下一页的 Url 进行抓取的,那么什么时候结束呢?注意当到达小说的最后一章...
分类:
编程语言 时间:
2014-07-12 18:35:14
阅读次数:
279
本文记录下用来爬虫主要使用的两个库。第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib;第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦。requests使用,1直接使用库内提供的get、post等函数,在比简单的情况下使用,2利用session...
分类:
编程语言 时间:
2014-07-11 18:51:34
阅读次数:
250
你是否苦恼于网上无法下载的“小说在线阅读”内容?或是某些文章的内容让你很有收藏的冲动,却找不到一个下载的链接?是不是有种自己写个程序把全部搞定的冲动?是不是学了 python,想要找点东西大展拳脚,告诉别人“哥可是很牛逼的!”?那就让我们开始吧! 哈哈
好吧,我就是最近写 Yii 写多了,想找点东西调剂一下.... = =
本项目以研究为目的,所有版权问题我们都是站在作者的一边,以看盗版小说为目的的读者们请自行面壁!
说了这么多,我们要做的就是把小说正文的内容从网页上爬下来,我们的...
分类:
编程语言 时间:
2014-07-08 19:53:59
阅读次数:
311