码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造)
在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求...
分类:其他好文   时间:2015-05-14 00:53:54    阅读次数:234
如何利用多核提升分词速度
在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1、把要分...
分类:其他好文   时间:2015-05-13 01:01:41    阅读次数:177
cws_evaluation v1.1 发布,中文分词器分词效果评估对比
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:其他好文   时间:2015-05-12 11:48:11    阅读次数:295
NLPIR简介及使用配置
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:其他好文   时间:2015-05-10 12:45:23    阅读次数:254
9大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** ?...
分类:编程语言   时间:2015-05-10 06:26:32    阅读次数:227
中文分词算法 之 基于词典的全切分算法
在使用?基于词典?的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 ...
分类:编程语言   时间:2015-05-09 20:39:14    阅读次数:708
最大匹配分词算法
全文检索有两个重要的过程:1分词                                               2倒排索引 我们先看分词算法 目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:编程语言   时间:2015-05-06 17:49:08    阅读次数:130
中文分词之9271组反义词
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同 一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶 一举两得?事倍功半?顾此失彼 一了百...
分类:其他好文   时间:2015-05-06 15:29:58    阅读次数:111
编译Ansj之Solr插件
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:其他好文   时间:2015-05-05 16:24:03    阅读次数:162
基于互联网内容的中文分词小实验
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:其他好文   时间:2015-05-03 13:13:17    阅读次数:237
713条   上一页 1 ... 55 56 57 58 59 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!