一、Combiner的出现背景1.1 回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文.....
分类:
其他好文 时间:
2015-02-23 01:24:05
阅读次数:
854
一、初步探索Partitioner1.1 再次回顾Map阶段五大步凑 在第四篇博文《初始MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对,是需要送到.....
分类:
其他好文 时间:
2015-02-23 01:23:12
阅读次数:
242
首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
分类:
其他好文 时间:
2015-02-19 17:28:09
阅读次数:
256
本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课Mining Massive Datasets中Jure Leskovec, Anand Rajaraman以及Jeff Ullman老师的讲解。(https://class.coursera.org/mmds-002/lecture)
第1讲---...
分类:
其他好文 时间:
2015-02-16 06:50:14
阅读次数:
373
第一个MR程序是实现关系型数据库中经常都会遇到的表连接操作,也就是join。这里是连接sales和accounts表,通过共同的ID列进行连接。同时统计出总的购买件数以及总的消费额。下面是两个示例数据,一个是sales.txt,另一个是accounts.txt。首先是sales.txt:001 .....
分类:
其他好文 时间:
2015-02-15 23:07:36
阅读次数:
222
一、Avro的基本功能
1、定义了数据模式文件的语法,一般使用json文件。以及一些数据基本类型与复杂类型。
2、定义了数据序列化到文件后的数据格式,此格式可供各种语言进行读取。
3、为部分语言定义了序列化文件的读取API,如JAVA等。
4、扩展了hadoop的基本mapreduce,提供了用于使用Avro作为输出框架的mapreduce API。
二、Gora中的avro
...
分类:
其他好文 时间:
2015-02-14 20:05:04
阅读次数:
151
部分目录:
1,初始Hadoop
2,关于MapReduce
3,Hadoop分布式文件系统
HDFS 文件系统。
4,Hadoop I/O
5,MapReduce应用开发
6,MapReduce的工作机制
7,MapReduce的类型与格式
8,MapReduce 的特性
9,构建 Hadoop 集群
10,管理 Hadoop
11,Pig简介
Pig Latin 描述...
分类:
其他好文 时间:
2015-02-13 20:01:07
阅读次数:
183
前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html 这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大...
分类:
数据库 时间:
2015-02-13 16:23:37
阅读次数:
222
主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 ...
分类:
其他好文 时间:
2015-02-13 16:21:54
阅读次数:
182