前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。1. 中文分词使用中文分词的话,首先到添加中文分词的jar包。
...
分类:
Web程序 时间:
2016-07-12 23:30:51
阅读次数:
275
solr本身对中文是不支持的,所以需要下载中文分词器IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20An..
分类:
其他好文 时间:
2016-05-17 20:00:17
阅读次数:
447
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:
其他好文 时间:
2016-05-13 03:36:00
阅读次数:
255
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:
其他好文 时间:
2016-05-12 23:44:31
阅读次数:
225
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。...
分类:
其他好文 时间:
2016-05-12 12:34:07
阅读次数:
161
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mm ...
分类:
其他好文 时间:
2016-04-25 22:32:36
阅读次数:
267
一、配置IKAnalyzer中文分词器Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer的冲突。解决Exceptioninthread"main"java.lang.VerifyError:classorg.wltea.analyzer.lucene.IKAnalyzeroverridesfinalmethodtokenStrea..
分类:
其他好文 时间:
2016-03-20 18:09:01
阅读次数:
1197
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn中文分词器..
分类:
其他好文 时间:
2016-02-20 10:33:20
阅读次数:
228
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。1.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf12.配置步骤下载压缩解压.....
分类:
其他好文 时间:
2016-01-09 18:31:17
阅读次数:
156
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234