基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF
分类:
其他好文 时间:
2014-09-10 21:01:11
阅读次数:
162
1. IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...
分类:
其他好文 时间:
2014-09-10 12:47:00
阅读次数:
374
Lucene系列介绍Lucene:分词器和索引文件目录分词器索引文件结构常用的中文分词器1、分词器分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果,在建立索引与进行检索时...
分类:
其他好文 时间:
2014-09-06 08:35:42
阅读次数:
199
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——...
分类:
其他好文 时间:
2014-09-05 21:09:12
阅读次数:
420
本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任何技术的发展壮大都不...
分类:
其他好文 时间:
2014-09-02 18:16:05
阅读次数:
331
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides fi...
分类:
其他好文 时间:
2014-08-26 11:58:26
阅读次数:
216
做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词。Game Starts参考文档 1) 中文分词之Java实现使用IK Analyzer实现 2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包 1) IKAnalyzer2012FF_u1.jar 最...
分类:
其他好文 时间:
2014-08-21 00:03:03
阅读次数:
240
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
眼下全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0),吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高,比較下使用的KAnalyzer,mmseg4j1.9.2-snapsh...
分类:
其他好文 时间:
2014-08-12 21:45:54
阅读次数:
193