http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954上一节主要介绍的是利用最大熵工具包来做字标注中文分词,这一节...
分类:
其他好文 时间:
2015-01-04 18:32:28
阅读次数:
274
在创建索引库的基础上,加上中文分词器的,更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。
建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的方法,将...
分类:
Web程序 时间:
2014-12-31 13:05:16
阅读次数:
244
Sphinx中文分词在discuz中的应用。Sphinx-for-chinese是一款专注于中文搜索的全文检索软件,在sphinx的基础上添加了中文处理模块并优化了中文搜索效果。相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+mmseg3组合要好一点1.准备环境cd/var/tmp/
wget..
分类:
Web程序 时间:
2014-12-23 17:34:27
阅读次数:
248
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。
纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享)
...
分类:
其他好文 时间:
2014-12-23 17:27:44
阅读次数:
328
由于项目需要全文检索,后面就去网上查了下资料,找到了Sphinx【中文是狮身人面像】这个全文检索引擎,听说挺好用的,不过没有中文分词。后面又去找了一下,找到了Coreseek,一款中文全文检索/搜索软件。一、Sphinx PHP扩展下载 PHP已经有专门的Sphinx的扩展文件,点击这里可以下...
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:
编程语言 时间:
2014-12-22 11:24:00
阅读次数:
661
官网:http://lucene.apache.org/各中文分词比较http://blog.csdn.net/chaocy/article/details/5938741教程相关:http://blog.chinaunix.net/uid-20648927-id-1907275.html庖丁解牛下...
分类:
Web程序 时间:
2014-12-18 16:44:30
阅读次数:
130
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:
Web程序 时间:
2014-12-18 16:29:35
阅读次数:
1432
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文)在Elasticsearch中,文档术语一种类型(type),各种各样的类型存在于一个索引中。你也可以通过类比传统的关系数据库得到一些大致的相似之处:关系数据库 ? 数...
分类:
其他好文 时间:
2014-12-18 10:18:33
阅读次数:
268