使用MapReduce编写的中文分词程序出现了 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:
上网查了好多资料,才明白这是hadoop本身的问题,具体参考:
https://issues.apache.org/jira/browse/YARN-1298
...
分类:
Web程序 时间:
2015-08-01 12:59:50
阅读次数:
339
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,
但是提供了最新版本的lucene和solr分词接口。...
分类:
Web程序 时间:
2015-07-31 18:27:39
阅读次数:
288
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功能。elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库,具体安装步骤如下...
分类:
其他好文 时间:
2015-07-29 22:52:23
阅读次数:
194
一,从github上下载最新的Ik分词源码到本地 git clone https://github.com/medcl/elasticsearch-analysis-ik clone到本地后,将elasticsearch-analysis-ik目录中的 config/ik/ 整个目录拷贝到Elasticsearch安装目...
分类:
其他好文 时间:
2015-07-22 19:09:42
阅读次数:
228
1. analysis-ik安装1). 从https://github.com/medcl/elasticsearch-analysis-ik,下载elasticsearch-analysis-ik-master.zip2). 解压后, cd elasticsearch-analysis-ik-m....
分类:
其他好文 时间:
2015-07-21 23:43:00
阅读次数:
177
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用MySQL在当时编译时并没有编译...
官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt【 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】 线上词库配置地址: ...
分类:
其他好文 时间:
2015-07-18 12:11:28
阅读次数:
123
1、在mvnrepository里面找IKAnalyzer,这个中文分词包,一直没有找到,找到github,发现是一个国人写的,
http://mvnrepository.com/search?q=IKAnalyzer
2、转换成maven包,安装到本地,找到有现成的maven工程,拿来主义,clone到本地
https://github.com/wks/ik-analyzer
...
分类:
其他好文 时间:
2015-07-17 21:08:33
阅读次数:
831
lucene3.0+版本中文分词测试+搜索结果+创建索引测试
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache....
分类:
Web程序 时间:
2015-07-10 15:26:45
阅读次数:
166