码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
文档内容说明 文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容(额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性)的设计和开发过程讲解。具体可详见文档目录列表。 主要功能特性 常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。 常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用htmlunit扩展插件抓取。 ...
分类:其他好文   时间:2015-05-04 15:33:08    阅读次数:294
Java开发常用下载的网址
cygwin国内镜像:http://mirrors.sohu.com/cygwin/旧版本的ant下载:http://archive.apache.org/dist/ant/旧版本的nutch下载:http://archive.apache.org/dist/nutch/旧版本的solr下载:htt...
分类:编程语言   时间:2015-05-01 19:56:43    阅读次数:159
Nutch爬虫安装向导与命令详解
Nutch介绍 Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。 我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文...
分类:其他好文   时间:2015-04-30 14:25:53    阅读次数:251
基于Nutch和Hadoop的简易搜索引擎
最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博文将对这个项目及其代码作一些详细的描述。搜索原理概述“搜索”,简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合。一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值...
分类:其他好文   时间:2015-04-22 18:30:02    阅读次数:192
配置Nutch模拟浏览器以绕过反爬虫限制
原文链接:http://yangshangchuan.iteye.com/blog/2030741当我们配置Nutch抓取 http://yangshangchuan.iteye.com的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP...
分类:其他好文   时间:2015-04-21 12:59:24    阅读次数:146
Nutch的发展历程
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程:2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本2004年9月Oregon State Univ...
分类:其他好文   时间:2015-04-21 12:43:58    阅读次数:125
Nutch中Web图基本类型和存储结构
类Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到。 类LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。 类LinkNode表示链接节点,包括链接和Node两部分。 类LoopSet表示链接构成的环,包含环中的链接集合。 Web图由抓取的段(主要是parse...
分类:Web程序   时间:2015-04-12 14:50:55    阅读次数:144
信息采集入门系列目录(更新中...)
已经做搜索一段时间了,觉得有必要记录下来,不然就没有沉淀了,这个系列准备一直延续下去,后面也会有越来越多高深点的东西等着去学习。目前准备有这些内容,后面会慢慢的添加入门篇1.C#获取网页信息核心方法(入门系列一)2.页面解析和内容提取3.SOLR的增删改查4.Nutch爬虫的使用5.自己开发的一.....
分类:其他好文   时间:2015-04-11 11:33:25    阅读次数:117
Nutch 问题杂记
1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。相关代码位于(nutch版本1.5.1,其他版本未测试):org...
分类:其他好文   时间:2015-04-09 19:09:13    阅读次数:108
Nutch的发展历程
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人 ? 下面是Nutch的发展历程: 2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Orego...
分类:其他好文   时间:2015-04-08 07:59:05    阅读次数:126
272条   上一页 1 ... 13 14 15 16 17 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!