最近发现天涯论坛是一个挺有意思的网站,有各种乱七八糟的帖子足以填补无聊时候的空虚感,但是相当不爽的一件事就是天涯的分页模式下想连贯的把楼主的内容看完实在是太心酸了,一个999页的帖子,百分之九十都是无聊网友的灌水,有时候连续翻几十页才能找到楼主的一条内容。所以无聊之下,就打算写一个简单的爬虫,能一次...
分类:
编程语言 时间:
2014-11-12 22:57:44
阅读次数:
762
一、演绎自已的北爱踏上北漂的航班,开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容。其次:从读取的内容中过滤关键字;这一步是关键,可以通过查看源代码的方式获取。最后:下载获取的html的url地址,或者图片的url地址保存到本地2、...
分类:
编程语言 时间:
2014-11-12 22:31:28
阅读次数:
523
以百度新闻为例,介绍如何基于HttpClient去采集网络新闻资源信息。...
分类:
Web程序 时间:
2014-11-07 14:54:11
阅读次数:
552
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取...
分类:
Web程序 时间:
2014-11-05 18:54:11
阅读次数:
213
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了!
回到用Python写爬虫的话题。...
分类:
编程语言 时间:
2014-11-05 10:59:13
阅读次数:
265
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,
然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
如...
分类:
编程语言 时间:
2014-11-05 00:27:37
阅读次数:
338
今天我们进行了第一次ScrumMeeting,总结了最近一段时间的工作成果和经验教训,并分配了每个成员下一步的工作。网络爬虫对我们来说是一个难点,因为之前接触比较少,所以需要从头学起。我们参考了大量的同类工程,从中学到了很多实用的知识,并且有了一个初步的简单架构。在一周之内会我们实现APP与服务器数...
分类:
其他好文 时间:
2014-11-04 14:37:02
阅读次数:
175
上面我们谈了在搜索引擎中,如何建立索引,这里,我们讲如何自动下载互联网上所有的网页,重点就是图论中的遍历算法。 1.图论和网络爬虫 遍历算法主要有两种,一种是深度优先遍历,一种是广度优先遍历。所谓深度优先遍历,就是从一个节点开始,一直沿着一条路走到底,直到没路了,再回过头去找别的路,再一路走...
分类:
其他好文 时间:
2014-10-27 22:54:08
阅读次数:
253
题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)...
分类:
其他好文 时间:
2014-10-24 12:24:26
阅读次数:
208
版本号:Python2.7.5,Python3改动较大。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取...
分类:
编程语言 时间:
2014-10-24 01:32:31
阅读次数:
232