在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求...
分类:
其他好文 时间:
2015-05-14 00:53:54
阅读次数:
234
在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1、把要分...
分类:
其他好文 时间:
2015-05-13 01:01:41
阅读次数:
177
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:
其他好文 时间:
2015-05-12 11:48:11
阅读次数:
295
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:
其他好文 时间:
2015-05-10 12:45:23
阅读次数:
254
本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /**
?...
分类:
编程语言 时间:
2015-05-10 06:26:32
阅读次数:
227
在使用?基于词典?的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 ...
分类:
编程语言 时间:
2015-05-09 20:39:14
阅读次数:
708
全文检索有两个重要的过程:1分词
2倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:
编程语言 时间:
2015-05-06 17:49:08
阅读次数:
130
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同
一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶
一举两得?事倍功半?顾此失彼
一了百...
分类:
其他好文 时间:
2015-05-06 15:29:58
阅读次数:
111
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:
其他好文 时间:
2015-05-05 16:24:03
阅读次数:
162
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:
其他好文 时间:
2015-05-03 13:13:17
阅读次数:
237