为什么需要使用IKAnalyzer Lucene自带的标准分析器无法中文分词 Lucene自带的中文分析器分词不准确 IKAnalyzer支持屏蔽关键词、新词汇的配置 使用示例 建立索引时 略 QueryParser查询时 略 单独使用进行分词 自定义词库 在classpath下定义IKAnalyz... ...
分类:
其他好文 时间:
2017-02-28 13:26:22
阅读次数:
207
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:
其他好文 时间:
2017-02-27 15:48:01
阅读次数:
221
它在哪里呢? 非常重要! [hadoop@HadoopMaster custom]$ pwd/home/hadoop/app/elasticsearch-2.4.3/plugins/ik/config/custom[hadoop@HadoopMaster custom]$ lltotal 5252- ...
分类:
其他好文 时间:
2017-02-25 00:07:20
阅读次数:
940
stanford corenlp的中文切词有时不尽如意,那我们就需要实现一个自定义切词类,来完全满足我们的私人定制(加各种词典干预)。上篇文章《IKAnalyzer》介绍了IKAnalyzer的自由度,本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具。 《stanford cor ...
分类:
其他好文 时间:
2016-12-09 16:42:04
阅读次数:
746
我们的项目中中文切词使用的是mmseg,有一个不满意的地方是jar包中的默认词典一定会被加载进去,当我对有些term有意见时,无法删除。 mmseg中Dictionary.java里一段代码保证了/data/words.dic的加载,我无法提供自己的进行替换。 而IKAnalyzer就比较自由,既可 ...
分类:
其他好文 时间:
2016-12-09 16:17:57
阅读次数:
383
1. 安装maven2. 在jar包目录下打开终端运行mvn install:install-file -Dfile=IKAnalyzer-3.2.8.jar -DgroupId=com.ndood -DartifactId=IKAnalyzer -Dversion=3.2.8 -Dpackagin ...
分类:
编程语言 时间:
2016-12-02 21:31:30
阅读次数:
208
首先IntelliJ IDEA中搭建Maven项目(web):spring+SpringMVC+Lucene+IKAnalyzer spring+SpringMVC搭建项目可以参考我的博客 整合Lucene 4.9.0 pom.xml添加lucene依赖 整合IKAnalyzer 2012FF_hf ...
分类:
Web程序 时间:
2016-12-02 03:17:43
阅读次数:
314
今天lucene中集成第三方中文分词器IKAnalyzer的时候遇到了相似的问题:lucene版本4.9、IKAnalyzer版本2012FF_hf1 直接去maven仓库下载,pom配置如下: 发现maven仓库里没有!只能自己配置将本地jar包添加到maven 好了,编译通过。但是问题来了运行时 ...
分类:
编程语言 时间:
2016-12-01 13:46:55
阅读次数:
404
Lucene使用IKAnalyzer分词时报错:”TokenStream contract violation: close() call missing” 解决办法是每次完成后必须调用关闭方法。 如果报错:java.lang.illegalstateexception: tokenstream c ...
分类:
Web程序 时间:
2016-11-21 08:23:11
阅读次数:
261
1、将IKAnalyzer-2012-4x.jar拷贝到example\solr-webapp\webapp\WEB-INF\lib下; 2、在schema.xml文件中添加fieldType: <fieldType name="text_ik" class="solr.TextField"> <a ...
分类:
其他好文 时间:
2016-10-18 15:58:01
阅读次数:
162