搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-10-07 13:18:33
阅读次数:
266
1.介绍 SolrCloud通过ZooKeeper集群来进行协调,使一个索引进行分片,各个分片可以分布在不同的物理节点上,多个物理分片组成一个完成的索引Collection。SolrCloud自动支持Solr Replication,可以同时对分片进行复制,冗余存储。下面,我们基于Solr最新的4....
分类:
其他好文 时间:
2014-10-06 20:09:20
阅读次数:
344
Mahout简介一、mahout是什么Apache Mahout是ApacheSoftware Foundation (ASF)旗下的一个开源项目,提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本,通过ApacheMahout库,Mahou...
分类:
其他好文 时间:
2014-10-04 12:13:46
阅读次数:
385
Magnolia简介:Magnolia CMS是一家瑞士公司自2003年起发布的一个基于Java的开源内容管理系统。它适合且已被使用在以下领域:电子商务(例如:COOP、Migros、Rossmann)、银行(例如:巴克莱银行、苏格兰银行、ING、American Express)、媒体娱乐(例如:...
分类:
Web程序 时间:
2014-10-04 02:46:35
阅读次数:
428
注明:本文是由本人在开发有关基于lucene资源检索系统时的一点总结,当中一部分是自己依据开发过程自己总结的,也有部分是摘自网络,因无法获取当时摘文的地址,所以在此没有写源地址。转载请声明出处Lucene-3.0.0配置一、Lucene开发环境配置step1.Lucene开发包下载step2.Jav...
分类:
其他好文 时间:
2014-10-03 15:32:14
阅读次数:
361
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...
分类:
其他好文 时间:
2014-10-03 13:28:14
阅读次数:
368
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:...
分类:
其他好文 时间:
2014-10-03 12:18:04
阅读次数:
215
注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucene 4.10配合使用时会报错。 我使用 intellij IDEA 12进行的测试。 建立java项目 建立项目HelloLucene,导入Lucene的几个库。“...
分类:
其他好文 时间:
2014-10-02 22:50:53
阅读次数:
182
酒店评论情感分析系统(二)——Nutch安装一、需求部分Nutch是Java开发的所以需要下载JavaJDK。 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。 下载地...
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-09-30 20:59:40
阅读次数:
310