简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:
Web程序 时间:
2015-09-09 09:47:17
阅读次数:
256
jieba中文分词的.NET版本:jieba.NET2015-09-08 20:05 by Anders Cui,191阅读,3评论,收藏,编辑简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,...
分类:
其他好文 时间:
2015-09-09 01:04:41
阅读次数:
507
分词、词性标注和关键词提取是jieba中文分词的三个主要功能,jieba.NET实现了与jieba一致的功能和接口。jieba.NET的开发刚刚开始,还有很多细节需要完善。非常欢迎大家的试用和反馈,也希望能和大家一起讨论,共同实现更好的中文分词库。
分类:
Web程序 时间:
2015-09-08 21:57:40
阅读次数:
277
一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自...
分类:
编程语言 时间:
2015-08-29 11:19:29
阅读次数:
247
这篇博客我记录在了http://segmentfault.com/a/1190000003101351
分类:
其他好文 时间:
2015-08-16 21:08:59
阅读次数:
162
Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)
分类:
其他好文 时间:
2015-08-16 10:45:01
阅读次数:
107
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
分类:
Web程序 时间:
2015-08-16 10:43:15
阅读次数:
445
很简易的一个智能自动问答机器人,应用了中文句子分词、多关键词句子匹配技术。
CHATTING
body{
background-color:#cccccc;
color:#eee;
text-align:center;
}
#dialogDisplay{
position:relative;
max-width:600px;
...
分类:
其他好文 时间:
2015-08-15 15:01:01
阅读次数:
193
当我们使用中文分词器的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。
我们的项目中使用IKAnalyzer作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,只有一墙之隔:词干提取。一个真正的英文分词器除了...
分类:
其他好文 时间:
2015-08-12 13:18:15
阅读次数:
1638