码迷,mamicode.com
首页 >  
搜索关键字:分词器    ( 431个结果
Lucene实践之中文分词IKAalyzer
做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词。Game Starts参考文档 1) 中文分词之Java实现使用IK Analyzer实现 2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包 1) IKAnalyzer2012FF_u1.jar 最...
分类:其他好文   时间:2014-08-21 00:03:03    阅读次数:240
Lucene分词器之庖丁解牛
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..
分类:其他好文   时间:2014-08-10 18:58:01    阅读次数:399
Lucene分词器之庖丁解牛
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...
分类:其他好文   时间:2014-08-10 12:35:10    阅读次数:210
lucene4.7学习总结
花了一段时间学习lucene今天有时间把所学的写下来,网上有很多文章但大部分都是2.X和3.X版本的(不前最新版本4.9),希望这篇文章对自己和初学者有所帮助。    学习目录 (1)什么是lucene (2)lucene常用类详解 (3)lucene简单实例 (4)lucene常用分词器 (5)lucene多条件查询 (6)修改删除索引 (7)lucene优化、排序 (8)lu...
分类:其他好文   时间:2014-08-03 18:07:35    阅读次数:352
Windows下面安装和配置Solr 4.9(三)支持中文分词器
首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,备注:网上很多文章使用IK中文分词器(IK_...
分类:Windows程序   时间:2014-08-03 12:39:15    阅读次数:386
重写lucene.net的分词器支持3.0.3.0版本
lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类,辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyT...
分类:Web程序   时间:2014-07-23 22:24:47    阅读次数:268
solr4.x配置IK2012FF智能分词+同义词配置
本文配置环境:solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...
分类:其他好文   时间:2014-07-23 20:20:15    阅读次数:288
Lucene 学习入门
Lucene 4.9 === #基础准备 - 了解常用分词器,选择合适分词器 - 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理 - TextField内容不能保存过长,最大长度是32766个字节 #StringFie...
分类:其他好文   时间:2014-07-22 08:31:36    阅读次数:192
solrcloud和zookeeper的搭建、使用、心得、教训
公司的solr线上服务器,分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个...
分类:其他好文   时间:2014-07-19 15:19:33    阅读次数:846
新版搜索日志记录-持续更新
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:其他好文   时间:2014-07-13 08:04:32    阅读次数:268
431条   上一页 1 ... 40 41 42 43 44 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!