文档内容说明
文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容(额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性)的设计和开发过程讲解。具体可详见文档目录列表。
主要功能特性
常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。
常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用htmlunit扩展插件抓取。
...
分类:
其他好文 时间:
2015-05-04 15:33:08
阅读次数:
294
cygwin国内镜像:http://mirrors.sohu.com/cygwin/旧版本的ant下载:http://archive.apache.org/dist/ant/旧版本的nutch下载:http://archive.apache.org/dist/nutch/旧版本的solr下载:htt...
分类:
编程语言 时间:
2015-05-01 19:56:43
阅读次数:
159
Nutch介绍
Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。
我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文...
分类:
其他好文 时间:
2015-04-30 14:25:53
阅读次数:
251
最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博文将对这个项目及其代码作一些详细的描述。搜索原理概述“搜索”,简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合。一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值...
分类:
其他好文 时间:
2015-04-22 18:30:02
阅读次数:
192
原文链接:http://yangshangchuan.iteye.com/blog/2030741当我们配置Nutch抓取 http://yangshangchuan.iteye.com的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP...
分类:
其他好文 时间:
2015-04-21 12:59:24
阅读次数:
146
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程:2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本2004年9月Oregon State Univ...
分类:
其他好文 时间:
2015-04-21 12:43:58
阅读次数:
125
类Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到。
类LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。
类LinkNode表示链接节点,包括链接和Node两部分。
类LoopSet表示链接构成的环,包含环中的链接集合。
Web图由抓取的段(主要是parse...
分类:
Web程序 时间:
2015-04-12 14:50:55
阅读次数:
144
已经做搜索一段时间了,觉得有必要记录下来,不然就没有沉淀了,这个系列准备一直延续下去,后面也会有越来越多高深点的东西等着去学习。目前准备有这些内容,后面会慢慢的添加入门篇1.C#获取网页信息核心方法(入门系列一)2.页面解析和内容提取3.SOLR的增删改查4.Nutch爬虫的使用5.自己开发的一.....
分类:
其他好文 时间:
2015-04-11 11:33:25
阅读次数:
117
1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。相关代码位于(nutch版本1.5.1,其他版本未测试):org...
分类:
其他好文 时间:
2015-04-09 19:09:13
阅读次数:
108
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人 ? 下面是Nutch的发展历程: 2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Orego...
分类:
其他好文 时间:
2015-04-08 07:59:05
阅读次数:
126