最近在学习lucene原理方面的知识,将学习中学到的知识和问题记录下来,今天学习的主要内容就是关于索引方面的内容。我们知道lucene是实现全文检索的工具包,要在工程里面加入搜索的功能还需要基于lucene的api进行开发。那么全文检索的步骤分为哪几步呢。全文检索大体上分为两个步骤,索引的创建和搜索...
分类:
Web程序 时间:
2015-06-24 00:39:39
阅读次数:
144
第一定律 相关性定律听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有 叫全文检索的。那时的相关性都是基...
分类:
其他好文 时间:
2015-06-19 06:38:07
阅读次数:
101
最近使用了了一下Hibernate Search这个组件这个组件是对域模型进行全文检索,在全文检索的底层实现上使用了Lucene技术在进行小测试的时候费了很大的力气去搞定包的问题我直接通过实例进行验证开始的时候我用的是最新的hibernate—search包,导致的直接问题是各种包不一致这个问题花了...
分类:
Web程序 时间:
2015-06-17 23:17:27
阅读次数:
209
Solr介绍
Solr作用
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
Solr下载
http://archive.apache.org/dist/lucene/solr/...
分类:
系统相关 时间:
2015-06-17 15:27:12
阅读次数:
289
一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结...
分类:
其他好文 时间:
2015-06-05 19:25:45
阅读次数:
143
题目连接http://acm.hdu.edu.cn/showproblem.php?pid=1277全文检索Description我们大家经常用google检索信息,但是检索信息的程序是很困难编写的;现在请你编写一个简单的全文检索程序。问题的描述是这样的:给定一个信息流文件,信息完全有数字组成,数字...
分类:
其他好文 时间:
2015-06-03 23:25:35
阅读次数:
208
在日常的业务场景中,不见得每一类的数据都需要结构化存储,很多情况下,只是将某个表单的数据保存下来就可以了,至于后续的查询,除了表单的ID以外,更多的是依靠全文检索来实现的。...
分类:
数据库 时间:
2015-05-31 23:28:36
阅读次数:
333
数据采集和DataFlow对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据...
分类:
其他好文 时间:
2015-05-30 07:01:49
阅读次数:
205
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据,使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第...
分类:
其他好文 时间:
2015-05-29 15:41:00
阅读次数:
132