码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
Redhat下R安装Rwordseg包
常用来做中文文本分析的一个包是Rwordseg,虽然很久没见更新了,但是在做中文分词时,它还是一个很好地选择。Rwordseg包的安装很容易出错,不管是在windows还是在Linux的系统下。之前在windows系统下装过一次,各种纠结最后搞定,最近转战Redhat又重新遭遇各种新问题。还是把过程记录下来,留作以后查看。     Rwordseg依赖包rJava,但是安装rJava包也是一个比...
分类:其他好文   时间:2015-06-01 22:40:43    阅读次数:210
Thinkphp 3.2 中词分词 加权搜索
原文地址:http://www.cnblogs.com/kekukele/p/4544349.html 前段时间,利用业余时间做了一个磁力搜索的网站Btdog,其中使用到了简单的中文分词与加权搜索,在这里分享给大家,供大家参考。 在我的网站中,中文分词使用的是SCWS分词系统,这个分词系统提供P.....
分类:Web程序   时间:2015-06-01 18:42:50    阅读次数:179
solr分词一:mmseg4j
刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。 几年过去了,Lucene和Solr...
分类:其他好文   时间:2015-05-29 11:40:57    阅读次数:215
solr特点九:word(分词)
在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: 2、在IKAnalyzer相关的jar包(IKAnalyzer2012_u6.jar 本博客不提供下载)放在{SOLR_HOME}...
分类:其他好文   时间:2015-05-28 15:59:39    阅读次数:218
中文分词常用算法之基于词典的正向最大匹配
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1左边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最右边的一个字去掉判断st...
分类:编程语言   时间:2015-05-25 22:19:22    阅读次数:137
中文分词常用算法之基于词典的双向最大匹配
算法描述:S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果如果FMM和BMM长度不相等则输出长度较短的那个否则转3如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果Java实现代码: 1 public static List SegDoubl...
分类:编程语言   时间:2015-05-25 21:58:18    阅读次数:144
中文分词常用算法之基于词典的逆向最大匹配
算法描述:S1为带切分字符串,S2为空,MaxLen为词典中的最大词长判断S1是否为空,若是则输出S2从S1右边开始,取出待处理字符串str(其中str的长度小于MaxLen)查看str是否在词典中,若是则转5,若否则转6S2+=str+”/”,S1-=str,转2将str最左边的一个字去掉判断st...
分类:编程语言   时间:2015-05-25 21:55:18    阅读次数:137
IK中文分词器配置
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。 一、版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf1 ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/dow...
分类:其他好文   时间:2015-05-22 13:33:37    阅读次数:165
文本分词
分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,...
分类:其他好文   时间:2015-05-19 20:45:56    阅读次数:172
IKAnalyzer中文分词法
package my.IKAnalyzer;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.StringReader;import java.util.Vector;import org.wltea.analyz...
分类:其他好文   时间:2015-05-18 09:09:43    阅读次数:135
713条   上一页 1 ... 54 55 56 57 58 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!