搜索关键字：nutch，搜索到272个结果！码迷,mamicode.com！

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档

文档内容说明文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容（额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性）的设计和开发过程讲解。具体可详见文档目录列表。主要功能特性常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面，可以直接用htmlunit扩展插件抓取。 ...

分类：其他好文时间：2015-05-04 15:33:08 阅读次数：294

Java开发常用下载的网址

cygwin国内镜像：http://mirrors.sohu.com/cygwin/旧版本的ant下载：http://archive.apache.org/dist/ant/旧版本的nutch下载：http://archive.apache.org/dist/nutch/旧版本的solr下载：htt...

分类：编程语言时间：2015-05-01 19:56:43 阅读次数：159

Nutch爬虫安装向导与命令详解

Nutch介绍 Nutch是一个开源的用java实现的一个搜素引擎，它包含两个部分的内容：爬虫和搜索。我们这里主要介绍nutch的爬虫部分，爬虫系统是由nutch爬虫工具Cralwer实现的，生成数据文件主要包括三类，分别是webdatabase，一系列的segment加上index，三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内，segments文件夹和index文...

分类：其他好文时间：2015-04-30 14:25:53 阅读次数：251

基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群，实现了一个简易的本地搜索引擎，并且将其开源到了github上：https://github.com/ifuding/search-1047，接下来的几篇博文将对这个项目及其代码作一些详细的描述。搜索原理概述“搜索”，简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合。一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值...

分类：其他好文时间：2015-04-22 18:30:02 阅读次数：192

配置Nutch模拟浏览器以绕过反爬虫限制

原文链接：http://yangshangchuan.iteye.com/blog/2030741当我们配置Nutch抓取 http://yangshangchuan.iteye.com的时候，抓取的所有页面内容均为：您的访问请求被拒绝 ...... 这是最简单的反爬虫策略（该策略简单地读取HTTP...

分类：其他好文时间：2015-04-21 12:59:24 阅读次数：146

Nutch的发展历程

Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程：2002年8月由Doug Cutting发起，托管于Sourceforge，之后发布了0.4、0.5、0.6三个版本2004年9月Oregon State Univ...

分类：其他好文时间：2015-04-21 12:43:58 阅读次数：125

Nutch中Web图基本类型和存储结构

类Node表示Web图中节点，基本信息包括：入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到。类LinkDatum表示Web图中链接，基本信息包括：链接、锚文本、分数、时间戳和链接类型（出链或入链）。类LinkNode表示链接节点，包括链接和Node两部分。类LoopSet表示链接构成的环，包含环中的链接集合。 Web图由抓取的段（主要是parse...

分类：Web程序时间：2015-04-12 14:50:55 阅读次数：144

信息采集入门系列目录（更新中...）

已经做搜索一段时间了，觉得有必要记录下来，不然就没有沉淀了，这个系列准备一直延续下去，后面也会有越来越多高深点的东西等着去学习。目前准备有这些内容，后面会慢慢的添加入门篇1.C#获取网页信息核心方法（入门系列一）2.页面解析和内容提取3.SOLR的增删改查4.Nutch爬虫的使用5.自己开发的一.....

分类：其他好文时间：2015-04-11 11:33:25 阅读次数：117

Nutch 问题杂记

1. 如何绕过目标站点的robots.txt限制多数站点都是只允许百度、google等搜索引擎抓取的，所以会在robots.txt里限制其他爬虫。nutch自然是会遵循robots协议的，但是我们可以通过修改nutch源码来绕过限制。相关代码位于（nutch版本1.5.1，其他版本未测试）：org...

分类：其他好文时间：2015-04-09 19:09:13 阅读次数：108

Nutch的发展历程

Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人 ? 下面是Nutch的发展历程： 2002年8月由Doug Cutting发起，托管于Sourceforge，之后发布了0.4、0.5、0.6三个版本 2004年9月Orego...

分类：其他好文时间：2015-04-08 07:59:05 阅读次数：126

共272条上一页 1 ... 13 14 15 16 17 ... 28 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)