本文使用Github中的Elasticsearch-rtf,已经集成了众多的插件,例如必须使用的中文分词等,可以简单的通过配置来启用中文分词。本文主要分为以下几部分: 1、配置和启用中文分词; 2、定义索引的mapping 3、java客户端jest创建和检索索引 4、高亮检索结果 5、集群配置 工...
分类:
编程语言 时间:
2014-12-18 00:01:49
阅读次数:
280
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2014-12-12 16:35:14
阅读次数:
273
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。
先来个整体概况:
其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。
先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流...
分类:
其他好文 时间:
2014-12-09 19:46:10
阅读次数:
287
李克华云计算高级群: 292870151 交流:Hadoop、NoSQL、分布式、lucene、solr、nutch 在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: ...
分类:
其他好文 时间:
2014-12-05 17:02:09
阅读次数:
148
sphinx是一个专业的开源搜索引擎,但不支持中文。coreseek相当于sphinx的中文版,使用了mmseg3来支持中文分词。虽然coreseek里面的shpinx版本很低,目前稳定版的coreseek 3.2.14自带的shpinx只有0.9.9,但还用就行。很多教程中,先安装shpinx的最新版,再安装coreseek,这个,不知道是怎么传的,反正这么安装是完全没必要的。...
分类:
其他好文 时间:
2014-12-04 12:16:17
阅读次数:
181
1.准备环境sudoapt-getinstallgccg++cpplibncurses5-devmakelibssl-devsysv-rc-confbisonlibbz2-devlibcurl3-openssl-devlibjpeg62-devlibpng12-devlibxpm-devlibt1-devlibfreetype6-devlibgmp3-devlibmcrypt-devlibmhash-devlibpspell-devlibsnmp9-devlibmm-devlibtidy-devlib..
分类:
数据库 时间:
2014-12-03 19:32:30
阅读次数:
492
上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器,而这个分词器在对中文进行分词时只是机械的按字进行划分,因此使用它lucene就不能很好的对中文索引,也就不能实现对中文关键词的检索了,因此其实上次的实践只能对英文进行。
为了解决这个问题,可以使用IKAnalyzer,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...
分类:
Web程序 时间:
2014-12-03 19:18:59
阅读次数:
299
一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象:1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...
分类:
Web程序 时间:
2014-12-03 18:38:58
阅读次数:
245
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代...
分类:
编程语言 时间:
2014-11-26 14:24:16
阅读次数:
329
sphinx由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese就是其中一个。本包集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。环境CentOS6X64安装步骤yuminstallyum-utils-y
rpm-ivhsphinx-for-chinese-2.2.1-r4311.el6.src...
分类:
其他好文 时间:
2014-11-22 23:20:00
阅读次数:
271