1. analysis-ik安装1). 从https://github.com/medcl/elasticsearch-analysis-ik,下载elasticsearch-analysis-ik-master.zip2). 解压后, cd elasticsearch-analysis-ik-m....
分类:
其他好文 时间:
2015-07-21 23:43:00
阅读次数:
177
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用MySQL在当时编译时并没有编译...
官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt【 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】 线上词库配置地址: ...
分类:
其他好文 时间:
2015-07-18 12:11:28
阅读次数:
123
1、在mvnrepository里面找IKAnalyzer,这个中文分词包,一直没有找到,找到github,发现是一个国人写的,
http://mvnrepository.com/search?q=IKAnalyzer
2、转换成maven包,安装到本地,找到有现成的maven工程,拿来主义,clone到本地
https://github.com/wks/ik-analyzer
...
分类:
其他好文 时间:
2015-07-17 21:08:33
阅读次数:
831
#library("rJava")library("Rwordseg")library("NLP")library("tm")library(igraph)#setwd("E:\\毕业设计\\")#txt<-read.csv(file="总评论文本.csv",header=T)#txt<-txt[s...
分类:
其他好文 时间:
2015-07-16 18:13:42
阅读次数:
126
lucene3.0+版本中文分词测试+搜索结果+创建索引测试
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache....
分类:
Web程序 时间:
2015-07-10 15:26:45
阅读次数:
166
1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。
基于词典的分词包括:
* MMSEG
* Forward/Backward matching
* 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:
其他好文 时间:
2015-07-06 16:06:51
阅读次数:
242
16配置IK中文分词器。
1.下载最新的Ik中文分词器。
下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword....
分类:
其他好文 时间:
2015-07-05 09:35:45
阅读次数:
168
Maven引用坐标:12345org.tinygroupchinese0.0.12Tiny中文分词是本人一开始做的一个验证性开发,结果开发出来效果还非常不错,因此就加入到Tiny框架中。Tiny中文分词支持下面的功能:1.中文分词2.中文转化拼音3.词性标注中文分词,就是把中文句子分解成一个一个的词...
分类:
其他好文 时间:
2015-07-01 11:40:47
阅读次数:
113
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:
Web程序 时间:
2015-06-26 14:58:45
阅读次数:
139