Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。
想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:
其他好文 时间:
2014-05-25 01:46:44
阅读次数:
246
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”
PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法
实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:
其他好文 时间:
2014-05-24 11:47:16
阅读次数:
358
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:
其他好文 时间:
2014-05-24 09:33:03
阅读次数:
371
需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK
Analyzer):[java] view plaincopypackage com.haha.test; ...
分类:
编程语言 时间:
2014-05-22 05:58:40
阅读次数:
392
上一篇文章初识Lucene4.5.0--(一)已经介绍了如何创建索引与检索索引。接下来就是删除与更新啦~一、删除索引。原本3.x版本时IndexWriter与IndexReader都是有删除方法的,让我们先来看看lucene3.6api文档中的IndexReader的描述:从4.0开始已经被删除了,所以现在只能用IndexWrite..
分类:
其他好文 时间:
2014-05-21 01:10:59
阅读次数:
310
近期想研究下lucene,但网络上的教程大多都是lucne3.x版本的讲解。可是lucene版本的更新速度快的惊人,目前已经到了4.8版了,只好去查阅官方文档。虽然英文不大好,但稍微对比了下发现3.x版本至4.x版本的修改非常之大。接下来我就以4.5版来操作,分享下我对luence的初步认识。..
分类:
其他好文 时间:
2014-05-21 00:49:10
阅读次数:
361
需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IKAnalyzer):[java]viewplaincopypackagecom.haha.test;importjava.io.IOException;importjava.io.StringReader;importorg.apache.lucene.analysis.Ana..
分类:
编程语言 时间:
2014-05-20 20:28:42
阅读次数:
390
用QT也已经三四年了,今天从QT的tools中看到qtclucene,原来这个就是从clucene移植过来的一个全文检索工具,用在QTHelp中。
下面是clucene的说明:
CLucene是Lucene的一个C++移植,Lucene是一个基于java的高性能的全文搜索引擎。CLucene因为使用C++编写,所以理论上要比lucene快。[1]
Lucene不是一个完整的全文索...
分类:
其他好文 时间:
2014-05-20 17:17:03
阅读次数:
300
这篇MongoDB基本管理命令比较全面,转载保留,原文MongoDB是一个NoSQL数据库系统:一个数据库可以包含多个集合(Collection),每个集合对应于关系数据库中的表;而每个集合中可以存储一组由列标识的记录,列是可以自由定义的,非常灵活,由一组列标识的实体的集合对应于关系数据库表中的行。...
分类:
数据库 时间:
2014-05-15 17:31:32
阅读次数:
590