码迷,mamicode.com
首页 >  
搜索关键字:lucene nrt    ( 2456个结果
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-10-07 13:18:33    阅读次数:266
Apache SolrCloud安装
1.介绍 SolrCloud通过ZooKeeper集群来进行协调,使一个索引进行分片,各个分片可以分布在不同的物理节点上,多个物理分片组成一个完成的索引Collection。SolrCloud自动支持Solr Replication,可以同时对分片进行复制,冗余存储。下面,我们基于Solr最新的4....
分类:其他好文   时间:2014-10-06 20:09:20    阅读次数:344
Mahout简介
Mahout简介一、mahout是什么Apache Mahout是ApacheSoftware Foundation (ASF)旗下的一个开源项目,提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本,通过ApacheMahout库,Mahou...
分类:其他好文   时间:2014-10-04 12:13:46    阅读次数:385
Web内容管理系统 Magnolia 介绍-挖掘优良的架构(1)
Magnolia简介:Magnolia CMS是一家瑞士公司自2003年起发布的一个基于Java的开源内容管理系统。它适合且已被使用在以下领域:电子商务(例如:COOP、Migros、Rossmann)、银行(例如:巴克莱银行、苏格兰银行、ING、American Express)、媒体娱乐(例如:...
分类:Web程序   时间:2014-10-04 02:46:35    阅读次数:428
Lucene教程具体解释
注明:本文是由本人在开发有关基于lucene资源检索系统时的一点总结,当中一部分是自己依据开发过程自己总结的,也有部分是摘自网络,因无法获取当时摘文的地址,所以在此没有写源地址。转载请声明出处Lucene-3.0.0配置一、Lucene开发环境配置step1.Lucene开发包下载step2.Jav...
分类:其他好文   时间:2014-10-03 15:32:14    阅读次数:361
nutch从搜索引擎到网络爬虫
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...
分类:其他好文   时间:2014-10-03 13:28:14    阅读次数:368
Nutch1.2 的安装与使用
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:...
分类:其他好文   时间:2014-10-03 12:18:04    阅读次数:215
整合Lucene 4.10.1 与IK Analyzer
注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucene 4.10配合使用时会报错。 我使用 intellij IDEA 12进行的测试。 建立java项目 建立项目HelloLucene,导入Lucene的几个库。“...
分类:其他好文   时间:2014-10-02 22:50:53    阅读次数:182
(2.1)windows下Nutch1.7的安装
酒店评论情感分析系统(二)——Nutch安装一、需求部分Nutch是Java开发的所以需要下载JavaJDK。 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。 下载地...
分类:Windows程序   时间:2014-10-01 13:02:42    阅读次数:373
海量数据存储
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:其他好文   时间:2014-09-30 20:59:40    阅读次数:310
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!