Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
                            
                            
                                分类:
其他好文   时间:
2015-12-03 21:14:38   
                                阅读次数:
286
                             
                    
                        
                            
                            
                                本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也...
                            
                            
                                分类:
编程语言   时间:
2015-11-15 06:20:48   
                                阅读次数:
422
                             
                    
                        
                            
                            
                                solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
                            
                            
                                分类:
其他好文   时间:
2015-10-31 14:17:21   
                                阅读次数:
247
                             
                    
                        
                            
                            
                                分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
                            
                            
                                分类:
Web程序   时间:
2015-08-16 10:43:15   
                                阅读次数:
445
                             
                    
                        
                            
                            
                                当我们使用中文分词器的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。
我们的项目中使用IKAnalyzer作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,只有一墙之隔:词干提取。一个真正的英文分词器除了...
                            
                            
                                分类:
其他好文   时间:
2015-08-12 13:18:15   
                                阅读次数:
1638
                             
                    
                        
                            
                            
                                Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,
但是提供了最新版本的lucene和solr分词接口。...
                            
                            
                                分类:
Web程序   时间:
2015-07-31 18:27:39   
                                阅读次数:
288
                             
                    
                        
                            
                            
                                16配置IK中文分词器。  
1.下载最新的Ik中文分词器。  
下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip  
2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword....
                            
                            
                                分类:
其他好文   时间:
2015-07-05 09:35:45   
                                阅读次数:
168
                             
                    
                        
                            
                            
                                solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把mmseg4j分词器集成到solr中:1、解压mmseg4j-1.9.1.zip,把dist...
                            
                            
                                分类:
其他好文   时间:
2015-06-16 19:01:59   
                                阅读次数:
128
                             
                    
                        
                            
                            
                                solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/dow...
                            
                            
                                分类:
其他好文   时间:
2015-05-22 13:33:37   
                                阅读次数:
165
                             
                    
                        
                            
                            
                                cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
                            
                            
                                分类:
其他好文   时间:
2015-05-12 11:48:11   
                                阅读次数:
295