码迷,mamicode.com
首页 > 其他好文 > 详细

利用MapReduce实现倒排索引

时间:2016-05-18 21:20:54      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:

这里来学习的是利用MapReduce的分布式编程模型来实现简单的倒排索引。

首先什么是倒排索引?

倒排索引是文档检索中最常用的数据结构,被广泛地应用于全文搜索引擎。

它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即可以通过内容来查找文档;

而不是通过文档来确定文档所包含的内容,因而被称作倒排索引(Inverted Index)。

倒排索引的基本原理和建立过程可以用图来说明。

各种类型的文件经过解析后变成纯文本,再经过中文分词,并与对应的文档号进行组合,

就形成了最简单的倒排索引文件倒排序表。

倒排序表的结构是这样一些元组集合:<词汇,<文档 ID,词汇位置>>。

利用MapReduce实现倒排索引

标签:

原文地址:http://www.cnblogs.com/tuhooo/p/5506208.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!