一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:
编程语言 时间:
2014-05-27 00:15:52
阅读次数:
328
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,
然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:
编程语言 时间:
2014-05-27 00:12:25
阅读次数:
323
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and
geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:
编程语言 时间:
2014-05-26 23:17:30
阅读次数:
352
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python
APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP
URLs中产生。1.URLError...
分类:
编程语言 时间:
2014-05-26 23:17:09
阅读次数:
341
在做网络爬虫的时候会遇到json数据格式的数据包,如果返回的是一个json格式的文件,可以使用Python
Yaml包处理数据,不需要再使用正则表达式匹配了,使用实例如https://maps-api-ssl.google.com/maps/suggest?q=hello
这个地址,我们需要que....
分类:
编程语言 时间:
2014-05-23 23:04:01
阅读次数:
484
简介
nutch是一个用java实现的网络爬虫,但却不仅仅是一个爬虫。它还囊括了网页分析,索引,搜索等功能,所白了,可以当做一个搜索引擎来用。nutch的意义在于,为普通开发人员提供了一扇研究搜索引擎的窗户,让搜索引擎不再神秘。而且,由于nutch的不断发展,对性能以及并行批处理的要求不断提供,h....
分类:
其他好文 时间:
2014-05-22 01:21:40
阅读次数:
258
最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示
网站是:http://se.dianfenxiang.com...
分类:
编程语言 时间:
2014-05-15 19:49:12
阅读次数:
291
对这个课程有兴趣的朋友,可以加我的QQ2059055336和我联系,可以和您分享。
课程介绍:最有前途的软件开发技术——搜索引擎技术
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
随着互...
分类:
其他好文 时间:
2014-05-09 15:24:17
阅读次数:
322
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368
在高性能爬虫为什么使用定制DNS客户端一文中阐述了DNS解析是网络爬虫的瓶颈。目前主要有两种方法来提高DNS解析效率:1. 基于多线程的DNS 解析2.
基于NIO的DNS解析dnsjava中使用的解析方式就是基于多线程的DNS解析class ResolveThread extends Thread...
分类:
其他好文 时间:
2014-05-04 11:15:14
阅读次数:
300