码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
elasticsearch IK中文分词
1. analysis-ik安装1). 从https://github.com/medcl/elasticsearch-analysis-ik,下载elasticsearch-analysis-ik-master.zip2). 解压后, cd elasticsearch-analysis-ik-m....
分类:其他好文   时间:2015-07-21 23:43:00    阅读次数:177
Sphinx安装配置及API调用实战手册
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用MySQL在当时编译时并没有编译...
分类:Windows程序   时间:2015-07-19 11:43:50    阅读次数:288
添加coreseek中文分词
官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt【 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】 线上词库配置地址: ...
分类:其他好文   时间:2015-07-18 12:11:28    阅读次数:123
【Maven】IKAnalyzer 在Maven Repository不存在
1、在mvnrepository里面找IKAnalyzer,这个中文分词包,一直没有找到,找到github,发现是一个国人写的, http://mvnrepository.com/search?q=IKAnalyzer 2、转换成maven包,安装到本地,找到有现成的maven工程,拿来主义,clone到本地 https://github.com/wks/ik-analyzer ...
分类:其他好文   时间:2015-07-17 21:08:33    阅读次数:831
文本挖掘
#library("rJava")library("Rwordseg")library("NLP")library("tm")library(igraph)#setwd("E:\\毕业设计\\")#txt<-read.csv(file="总评论文本.csv",header=T)#txt<-txt[s...
分类:其他好文   时间:2015-07-16 18:13:42    阅读次数:126
lucene3.0+版本中文分词测试+搜索结果+创建索引测试
lucene3.0+版本中文分词测试+搜索结果+创建索引测试 import java.io.File;   import java.io.IOException;   import java.io.StringReader;   import org.apache.lucene.analysis.Analyzer;   import org.apache....
分类:Web程序   时间:2015-07-10 15:26:45    阅读次数:166
Chinese Segmentation Introduction
1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。 基于词典的分词包括: * MMSEG * Forward/Backward matching * 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:其他好文   时间:2015-07-06 16:06:51    阅读次数:242
Hadoop,HBase集群环境搭建的问题集锦(三)
16配置IK中文分词器。 1.下载最新的Ik中文分词器。 下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword....
分类:其他好文   时间:2015-07-05 09:35:45    阅读次数:168
Tiny中文分词
Maven引用坐标:12345org.tinygroupchinese0.0.12Tiny中文分词是本人一开始做的一个验证性开发,结果开发出来效果还非常不错,因此就加入到Tiny框架中。Tiny中文分词支持下面的功能:1.中文分词2.中文转化拼音3.词性标注中文分词,就是把中文句子分解成一个一个的词...
分类:其他好文   时间:2015-07-01 11:40:47    阅读次数:113
让盘古分词支持最新的Lucene.Net 3.0.3
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:Web程序   时间:2015-06-26 14:58:45    阅读次数:139
713条   上一页 1 ... 52 53 54 55 56 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!