1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。
基于词典的分词包括:
* MMSEG
* Forward/Backward matching
* 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:
其他好文 时间:
2015-07-06 16:06:51
阅读次数:
242
16配置IK中文分词器。
1.下载最新的Ik中文分词器。
下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword....
分类:
其他好文 时间:
2015-07-05 09:35:45
阅读次数:
168
Maven引用坐标:12345org.tinygroupchinese0.0.12Tiny中文分词是本人一开始做的一个验证性开发,结果开发出来效果还非常不错,因此就加入到Tiny框架中。Tiny中文分词支持下面的功能:1.中文分词2.中文转化拼音3.词性标注中文分词,就是把中文句子分解成一个一个的词...
分类:
其他好文 时间:
2015-07-01 11:40:47
阅读次数:
113
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:
Web程序 时间:
2015-06-26 14:58:45
阅读次数:
139
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4...
分类:
编程语言 时间:
2015-06-26 14:55:47
阅读次数:
152
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把mmseg4j分词器集成到solr中:1、解压mmseg4j-1.9.1.zip,把dist...
分类:
其他好文 时间:
2015-06-16 19:01:59
阅读次数:
128
本文针对的问题是 ICTCLASS2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。 首先ICTCLASS2015的传送门(http://ictclas.nlpir.org/),其对中文分词做的比较透彻,而且有一定的可调式性。但是应用到实际开发...
分类:
编程语言 时间:
2015-06-16 16:39:59
阅读次数:
268
题目:
给定一个字符串, 一个数组,判断这个字符串能否被分隔成字典里的一个个单词。用动态规划算法
我面试时写的是下面的代码 public static boolean divied2(String s,String[] dict){
boolean result=false;
if(s.length()==0)
return true...
分类:
编程语言 时间:
2015-06-15 23:57:51
阅读次数:
195
参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试)http://zhaolinjnu.blog.sohu.com/264905210.htmlLucene3.3、Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本)http://www.360doc.com/conten...
分类:
其他好文 时间:
2015-06-15 23:38:44
阅读次数:
610