自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:“1/10计算资源,1/3耗时”。这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验。...
分类:
其他好文 时间:
2015-01-03 22:30:20
阅读次数:
286
Hadoop自连接
实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。
child parent
Tom Lucy
Tom Jack
Jone Lucy
Jone Jack
Lucy ...
分类:
其他好文 时间:
2015-01-02 09:50:09
阅读次数:
224
HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。 如果把整个hadoop当做一个java中的类的话,那么HDFS就是这个类的静态变量,其他的项目是hadoop中的方法...
分类:
其他好文 时间:
2014-12-31 22:46:33
阅读次数:
301
Hadoop 默认排序
1 3
1 2
1 1
3 3
3 2
2 2
2 1
3 1
排序后:左右前面一列排序 后面一列不排序 要想第二列也排序 请看 Hadoop二次排序
1 3
1 2
1 1
2 2
2 1
3 3
3 2
3 1
代码为:
...
分类:
编程语言 时间:
2014-12-31 18:38:32
阅读次数:
215
hadoop 二次排序
1 3
1 2
1 1
3 3
3 2
2 2
2 1
3 1
排序后:
1 1
1 2
1 3
2 1
2 2
3 1
3 2
3 3
代码为:
package com.hadoop.test.SecondSort;
im...
分类:
编程语言 时间:
2014-12-31 18:36:32
阅读次数:
149
Hadoop二次排序的其他写法
二次排序原理
在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。
本例子中使用的是TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value。
这...
分类:
编程语言 时间:
2014-12-31 18:34:28
阅读次数:
316
前言Hadoop的MapReduce环境是一个复杂的编程环境,所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具,通过Maven来帮助我们从复杂的环境配置中解脱出来,从而标准化开发过程。所以,写MapReduce之前,让我们先花点时间把刀磨快!!当然,...
分类:
其他好文 时间:
2014-12-31 18:21:11
阅读次数:
201
1、Hadoop的包的功能分析 2、由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用java的序列化,而是引入它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。 3、介绍...
分类:
其他好文 时间:
2014-12-31 17:58:07
阅读次数:
254
Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop
MapReduce...
分类:
其他好文 时间:
2014-12-31 16:26:30
阅读次数:
136