码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
基于MMSeg算法的中文分词类库
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4...
分类:编程语言   时间:2015-06-26 14:55:47    阅读次数:152
solr5.0集成mmseg4j分词器
solr5.0集成mmseg4j分词器...
分类:其他好文   时间:2015-06-17 16:45:34    阅读次数:168
solr4.5配置中文分词器mmseg4j
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把mmseg4j分词器集成到solr中:1、解压mmseg4j-1.9.1.zip,把dist...
分类:其他好文   时间:2015-06-16 19:01:59    阅读次数:128
【原创】中文分词系统 ICTCLASS2015 的JAVA封装和多线程执行(附代码)
本文针对的问题是 ICTCLASS2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。 首先ICTCLASS2015的传送门(http://ictclas.nlpir.org/),其对中文分词做的比较透彻,而且有一定的可调式性。但是应用到实际开发...
分类:编程语言   时间:2015-06-16 16:39:59    阅读次数:268
中文分词算法-百度面试题
题目: 给定一个字符串, 一个数组,判断这个字符串能否被分隔成字典里的一个个单词。用动态规划算法 我面试时写的是下面的代码 public static boolean divied2(String s,String[] dict){ boolean result=false; if(s.length()==0) return true...
分类:编程语言   时间:2015-06-15 23:57:51    阅读次数:195
实验二-3 Hadoop&Paoding 中文词频统计
参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试)http://zhaolinjnu.blog.sohu.com/264905210.htmlLucene3.3、Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本)http://www.360doc.com/conten...
分类:其他好文   时间:2015-06-15 23:38:44    阅读次数:610
Elasticsearch 集成IK分词器
Elasticsearch中文分词...
分类:其他好文   时间:2015-06-15 18:55:38    阅读次数:169
IKAnalyzer词典扩充
IKAnalyzer词典扩充最近工作使用到lucene,需要对中文分词,分词器是IKAnalyzer,自带的词典包含了27万词条,能满足一般的分词要求,但是如果应用到特定的专业领域,还需要扩展专业词库,以达到更好的分词效果:IKAnalyzer词典扩充 IKAnalyzer分词API 智能分词 最细粒度切分 词库扩展 通过配置文件扩展词典 通过API扩展词典IKAnalyzer分词API...
分类:其他好文   时间:2015-06-15 11:20:57    阅读次数:272
中科院NLPIR中文分词java版
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl...
分类:编程语言   时间:2015-06-12 23:47:26    阅读次数:314
数学之美札记:谈谈中文分词
之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位。西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单。而对...
分类:其他好文   时间:2015-06-02 11:31:34    阅读次数:424
713条   上一页 1 ... 53 54 55 56 57 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!