设计思路: 使用mapreduce的默认排序,按照key值进行排序的,如果key为封装int的IntWritable类型,那么MapReduce按照数字大小对key排序,如果key为封装为String的Text类型,那么MapReduce按照字典顺序对字符串排序。 首先map阶段将输入的数字作为ke ...
分类:
编程语言 时间:
2016-11-15 14:22:11
阅读次数:
243
1. 软件版本:Hadoop2.6.0(IDEA中源码编译使用CDH5.7.3,对应Hadoop2.6.0),集群使用原生Hadoop2.6.4,JDK1.8,Intellij IDEA 14 。源码...
分类:
其他好文 时间:
2016-11-05 09:47:30
阅读次数:
392
//map类 package hadoop3; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop ...
分类:
其他好文 时间:
2016-09-14 16:46:30
阅读次数:
121
//map package hadoop3; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop. ...
分类:
其他好文 时间:
2016-09-14 16:23:44
阅读次数:
102
通过MapReduce实现 TF-IDF值的统计 数据:文章ID 文件内容 结果数据: 在整个的处理过程中通过两步来完成 第一步主要生成三种格式的文件 1、使用分词工具将文章内容进行拆分成多个词条;并记录文章的总词条数 关于分词工具的使用请参考 TF-IDF第一步处理后结果: 2、记录词条在多少篇文 ...
分类:
其他好文 时间:
2016-07-22 18:58:47
阅读次数:
559
MapReduce实现好友推荐: 张三的好友有王五、小红、赵六; 同样王五、小红、赵六的共同好友是张三; 在王五和小红不认识的前提下,可以通过张三互相认识,给王五推荐的好友为小红, 给小红推荐的好友是王五,就是王五、小红、赵六互为推荐关系。 根据分析就是有相同好友的人物之间为推荐关系,但要排除本来两 ...
分类:
其他好文 时间:
2016-07-12 23:05:17
阅读次数:
272
MapReduce实现基于物品的协同过滤: 实现过程中需要执行多个mapreduce任务。 初始数据: job1: 生成用户对物品喜爱度矩阵 数据:初始数据 map: key=userid value=item:grade reduce: key=userid value=item:grade,it ...
分类:
其他好文 时间:
2016-07-08 19:41:24
阅读次数:
297
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选。 统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 示例文件内容: 此处应有示例文件 设计思路 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。 自然就想到将同一数据的所... ...
分类:
其他好文 时间:
2016-05-18 23:28:11
阅读次数:
115
这里来学习的是利用MapReduce的分布式编程模型来实现简单的倒排索引。 首先什么是倒排索引? 倒排索引是文档检索中最常用的数据结构,被广泛地应用于全文搜索引擎。 它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即可以通过内容来查找文档; 而不是通过文档来确定文档所包含的内... ...
分类:
其他好文 时间:
2016-05-18 21:20:54
阅读次数:
134
MapReduce计算框架 一、MapReduce实现原理 图展示了MapReduce实现中的全部流程,处理步骤如下: 1、用户程序中的MapReduce函数库首先把输入文件分成M块(每块大小默认64M),在集群上执行处理程序,见序号1 2、主控程序master分配Map任务和Reduce任务给工作 ...
分类:
其他好文 时间:
2016-04-18 18:56:06
阅读次数:
226