数据:数据库文章条数超过200W,每天3K左右的增加。现状:Lucene 2.9 + 盘古分词,读写分离。索引文件达到1G多,列表读取越来愈慢。需求:前台页面实现列表秒出,检索秒出,提升用户体验。----------------------------------------------------...
由于Lucene4.9.1的QueryParser支持类似Solr的范围检索( FL:[ 111 TO 222] ) 但是实际中会出现不准确的现象。这是由于QueryParser 把范围查询当做String类型。而无论索引时使用LongField 和 TextField 都会出现不准确问题。解决办法...
分类:
Web程序 时间:
2015-01-08 10:56:43
阅读次数:
226
mahout(或者hadoop)优先使用用户指定的classpath加载jar包
问题:使用mahout0.8时,出现java.lang.NoSuchMethodError: org.apache.lucene.util.PriorityQueue
类似http://www.warski.org/blog/2013/10/using-amazons-elastic-map-reduce-to-compute-recommendations-with-apache-mahout-0-8/
原因:
$HADO...
分类:
编程语言 时间:
2015-01-07 23:36:11
阅读次数:
297
1.ElasticSearch是什么 ElasticSearch 是一个基于Lucene构建的开源、分布式,RESTful搜索引擎。它的服务是为具有数据库和Web前端的应用程序提供附加的组件(即可搜索的存储库)。ElasticSearch为应用程序提供搜索算法和相关的基础架构,用户只需要将应用程序....
分类:
数据库 时间:
2015-01-07 18:41:27
阅读次数:
282
前段时间在网上搜索些solrconfig的配置文件资料,发现大都比较零散。因此花了段时间整理相关内容。
推荐部分相关资料:http://www.luoshengsha.com/197.html
http://guohf.iteye.com/blog/1440838 这个也对solrconfig总结的比较详细。
<!--
如果为true,在启动的时候不锁定任何持有写或者提交的锁。 这打败了允许多个程序安全访问lucene索引并且应该小心使用的理论依据。
如果...
分类:
其他好文 时间:
2015-01-07 13:16:08
阅读次数:
123
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch
、solr的出现,lucene变得更加热。Nutch、Solr的发展,极大推动了lucene的升级。
对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼。我个人也认为solr、lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高...
分类:
Web程序 时间:
2015-01-07 11:01:38
阅读次数:
185
通常,lucene只返回与用户查询相关的文档,搜索的结果,跟lucene对文档评分有关。而在现实的查询中,我们有些时候需要为某些特定的文档指定它们在搜索结果中的位置。solr1.3 新推的组件QueryElevationComponent实现了这样的功能。...
分类:
其他好文 时间:
2015-01-06 18:01:09
阅读次数:
182
public abstract DocsEnum docs(Bits liveDocs, DocsEnum reuse, int flags) throws IOException;
经过一天的研究,总算有些进展. 希望大家提出各种意见,欢迎拍砖! lucene版本:4.3.1
小插曲,原本想写写spetial search,但是研究研究着,就了解到了termFilte...
分类:
Web程序 时间:
2015-01-05 18:44:34
阅读次数:
159
今天在做中文分词,遇到很多问题,真是困难重重,而且是让人哭笑不得的问题,觉累不爱了。。。下面和大家分享一下吧!...
分类:
其他好文 时间:
2015-01-05 16:49:07
阅读次数:
117