全文检索技术与Lucene的使用

时间：2014-06-05 07:42:26 阅读：265 评论：0 收藏：0 [点我收藏+]

概念

在谈全文检索之前，首先让我们来了解一下什么是信息检索。信息检索就是从信息集合中找出与用户需求相关的信息。被检索的信息除了文本外，还有图像、音频、视频等多媒体信息，这里我们只讨论文本信息的检索。

全文检索是信息检索技术的一种，主要是把用户的查询请求和全文中的每一个词进行比较，不考虑查询请求与文本语义上的匹配。在信息检索工具中，全文检索是最具通用性和实用性的。

流程

建立索引

搜索的目的是为了在大量的信息中发现自己感兴趣的信息。但是，当有了足够的资料（比如网页、Word文档、Pdf文档，或数据库中的资料等）之后，并不能立即开始搜索，而且随着大数据时代的到来，直接搜索浪费的时间是不可估算的，因此，在搜索之前，必须先对信息建立索引。

建立索引，就是对待搜索的信息进行一定的分析，并将分析结果安照一定的组织方式存储起来，通常将这些结果存储在文件中。存储分析结果的文件的集合就是索引。在查询时，先从索引中查找，由于索引是按照一定的结构组织的，所以查询的速度是非常快的。

为了提供检索的功能，信息检索系统会事先做一些准备工作，信息的采集与加工，流程如下。

数据分词

建立好索引之后，就需要分词器对文本资源进行切分，将文本按规则且分为一个个可以进行索引的最小单位，也就是所谓的关键词。例如，某文档中的一段文本，经过分词器分词之后，会成为如下的情况。

需要注意的是，建立索引和进行搜索都是需要分词器进行分词的，而且，为了保证能正确的搜索到结果，在建立索引与进行搜索时使用的分词器应是同一个。

由于中英文的不同，分词器还分为英文分词、中文分词以及停用词等。英文分词的主要流程是，输入文本 → 关键词切分 → 去除停用词 → 形态还原 → 转为小写。其中，形态还原是去除单词词尾的形态变化，将其还原为词的原型，例如，worked → work，studies → study 。

中文的分词比较复杂，因为不是一个字就是一个词，而且一个词在另外一个地方就可能不是一个词，如在“帽子和服装”中，“和服”就不是一个词。对于中午分词，通常有三种方式，单字分词、二分法分词、词典分词。

有些词在文本中出现的频率是非常高的，而且对文本所携带的信息基本不产生影响，比如英文的“a、an、the、of”，或中文的“的、了、着”，以及各种标点符号等，这样的词称为停用词。文本经过分词之后，停用词通常被过滤掉，不会被进行索引。在检索的时候，用户的查询中如果含有停用词，检索系统也会将其过滤掉。这也给了我们一些启示，在检索的时候，尽量的排除停用词可以加快搜索的速度。

倒排索引

倒排索引，索引对象是文档中的单词等，用来存储这些单词在一个文档中的位置。比如，有些书在最后提供的索引，就可以看成是一种倒排序索引。可以通过一些关键字，在全书中检索出与之相关的部分。

词汇表规模相对较小，文档集合规模较大。进行检索时，先从检索词汇表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，则在词汇表中找到该单词，并取出他对应的文档。如果包含多个关键词，则需要将各个单词检索出的记录进行合并。

维护倒排索引有三个操作，插入、删除和更新文档。但是更新操作需要较高的代价。因为文档修改后，就可能会造成文档中的很多的关键词的位置都发生了变化，这就需要频繁的读取和修改记录。因此，一般不进行更新操作，而是使用“先删除，后创建”的方式更新操作。

Lucene

Lucene 是一个高性能、可伸缩的全文检索工具包。你可以使用它建立索引和优化搜索能力。有很多应用程序使用Lucene 来提供全文检索的功能，比如开发人员常用的Eclipse的帮助子系统，就是使用Lucene实现的。

HelloWorld 程序

在开始做Demo之前，需要把Lucene的几个jar包加到项目中，需要的jar包有（这里用的是 lucene 2.4的版本）

建立索引

<span style="font-family:Microsoft YaHei;font-size:12px;">/**
 * 创建索引
 * 
 * IndexWriter 是用来操作（增、删、改）索引库的
 */
@Test
public void createIndex() throws Exception {
	// file --> doc
	Document doc = File2DocumentUtils.file2Document(filePath);

	// 建立索引
	IndexWriter indexWriter = new IndexWriter(indexPath, analyzer, true,
			MaxFieldLength.LIMITED);
	indexWriter.addDocument(doc);
	indexWriter.close();
}</span>

搜索

<span style="font-family:Microsoft YaHei;font-size:12px;">/**
 * 搜索
 * 
 * IndexSearcher 是用来在索引库中进行查询的
 */
@Test
public void search() throws Exception {
	String queryString = "document";

	// 1，把要搜索的文本解析为 Query
	String[] fields = { "name", "content" };
	QueryParser queryParser = new MultiFieldQueryParser(fields, analyzer);
	Query query = queryParser.parse(queryString);

	// 2，进行查询
	IndexSearcher indexSearcher = new IndexSearcher(indexPath);
	Filter filter = null;
	TopDocs topDocs = indexSearcher.search(query, filter, 10000);
	System.out.println("总共有【" + topDocs.totalHits + "】条匹配结果");

	// 3，打印结果
	for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
		int docSn = scoreDoc.doc; // 文档内部编号
		Document doc = indexSearcher.doc(docSn); // 根据编号取出相应的文档
		File2DocumentUtils.printDocumentInfo(doc); // 打印出文档信息
	}
}</span>

结束语

随着大数据的来临，对数据的查询技术也面临着新的挑战，每每我们通过百度、Google 搜索我们需要的信息时，尽管互联网上与之相关的海量数据何其之多，但是他们总是能够很快的找到我们需要的信息。这就是对大数据的进行处理之后的结果，给我们提供了更快速的查询。然而，我们现在就需要这样的技术来处理我们日益繁多的数据，以方便我们随时对信息的需求。

在这个时代，只要掌握了数据，掌握了处理数据的能力，掌握了检索信息的用户体验，那么你距离进入福布斯富豪榜就不远了。小伙伴们，努力吧！

全文检索技术与Lucene的使用,布布扣,bubuko.com

全文检索技术与Lucene的使用

标签：Lucene c style class blog code

原文地址：http://blog.csdn.net/happylee6688/article/details/27347495

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行