码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
中文分词入门之字标注法4
http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954上一节主要介绍的是利用最大熵工具包来做字标注中文分词,这一节...
分类:其他好文   时间:2015-01-04 18:32:28    阅读次数:274
全文检索之lucene的优化篇--分词器
在创建索引库的基础上,加上中文分词器的,更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。          建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的方法,将...
分类:Web程序   时间:2014-12-31 13:05:16    阅读次数:244
Sphinx中文分词在discuz 中的应用
Sphinx中文分词在discuz中的应用。Sphinx-for-chinese是一款专注于中文搜索的全文检索软件,在sphinx的基础上添加了中文处理模块并优化了中文搜索效果。相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+mmseg3组合要好一点1.准备环境cd/var/tmp/ wget..
分类:Web程序   时间:2014-12-23 17:34:27    阅读次数:248
ictclas4j进行中文分词
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。 纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享) ...
分类:其他好文   时间:2014-12-23 17:27:44    阅读次数:328
Coreseek Windows下安装调试
由于项目需要全文检索,后面就去网上查了下资料,找到了Sphinx【中文是狮身人面像】这个全文检索引擎,听说挺好用的,不过没有中文分词。后面又去找了一下,找到了Coreseek,一款中文全文检索/搜索软件。一、Sphinx PHP扩展下载 PHP已经有专门的Sphinx的扩展文件,点击这里可以下...
分类:Windows程序   时间:2014-12-22 12:33:46    阅读次数:437
"结巴"中文分词的R语言版本:jiebaR
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:编程语言   时间:2014-12-22 11:24:00    阅读次数:661
Lucene
官网:http://lucene.apache.org/各中文分词比较http://blog.csdn.net/chaocy/article/details/5938741教程相关:http://blog.chinaunix.net/uid-20648927-id-1907275.html庖丁解牛下...
分类:Web程序   时间:2014-12-18 16:44:30    阅读次数:130
IK 异常class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:Web程序   时间:2014-12-18 16:29:35    阅读次数:1432
Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,elasticsearch安装配置及中文分词
http://fuxiaopang.gitbooks.io/learnelasticsearch/content/ (中文)在Elasticsearch中,文档术语一种类型(type),各种各样的类型存在于一个索引中。你也可以通过类比传统的关系数据库得到一些大致的相似之处:关系数据库 ? 数...
分类:其他好文   时间:2014-12-18 10:18:33    阅读次数:268
704条   上一页 1 ... 60 61 62 63 64 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!