一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序。自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可以让开发人员进行二次排序。 二:技术实现 我们先来看案例需求 #需求1: 首先按照第一列数字升序排列
分类:
编程语言 时间:
2016-01-31 21:31:22
阅读次数:
559
一:背景 有时候,我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式,而使用键值对的形式,使用KeyValueInputFormat就可以完成这种需求。 二:技术实现 数据源如下 操作代码如下: [java] view plain copy public class MyKeyVa
分类:
其他好文 时间:
2016-01-31 21:29:13
阅读次数:
393
一:背景 某些业务的数据来源可能不同,且数据源中的分割方式也不同,导致在MapReduce编程时使用的格式化类会不同,为了包装不同的Map输出,Hadoop提供了GenericWritable类,允许我们同时操作多个不同的Map输出,输出到一个Reduce中进行处理。 技术实现: 我们对HDFS中两
分类:
其他好文 时间:
2016-01-31 21:22:10
阅读次数:
375
首先来看一下HDFS的结构,如下图: 如上图,在HDFS架构中,NameNode是职责是管理元数据信息,DataNode的职责是负责数据存储,那么SecondaryNameNode的作用是什么呢? 其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案,下面我们来看
分类:
其他好文 时间:
2016-01-31 21:20:15
阅读次数:
222
一:背景 Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job多个task运行速度不不一致,有的task运行速度明显要慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则
分类:
其他好文 时间:
2016-01-31 21:19:07
阅读次数:
243
Hadoop中可是使用hadoop CLASSNAME命令。这个CLASSNAME就是你写好的类名。hadoop CLASSNAME命令类似于java classname。 使用hadoop CLASSNAM之前,你需要设置HADOOP_CLASSPATH. Java代码 export HADOOP
分类:
其他好文 时间:
2016-01-27 22:59:25
阅读次数:
147
/* *InputFormat类; * *作用: *1.设置输入的形式; *2.将输入的数据按照相应的形式分割成一个个spilts后再进一步拆分成对作为Mapper的输入; *3.默认使用TextInputFormat类进行处理; *4.可以通过job.setInputFormatCl...
分类:
其他好文 时间:
2016-01-23 21:16:11
阅读次数:
131
作者Boris Lublinsky, Michael Segel,译者侯伯薇发布于 2011年8月18日|注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情!分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单在Hadoop中执行的任务有时...
分类:
其他好文 时间:
2016-01-22 17:38:58
阅读次数:
255
原文链接 http://blog.csdn.net/lastsweetop/article/details/9249411所有源码在github上,https://github.com/lastsweetop/styhadoop简介在hadoop中,Writable的实现类是个庞大的家族,我们在这里...
分类:
其他好文 时间:
2016-01-17 16:16:04
阅读次数:
213
一、需求公司线上运行有hadoop1.0和hadoop2.0,由于hadoop1.0没有处理jobtracker失败机制,它是一个单点故障,但业务还是以1.0为主,会慢慢过渡到2.0。以下我将以公司目前环境把写1.0部署步聚写出来二、知识点储备1、hadoop中NameNode、DataNode、Secondary、NameNode、JobTrac..
分类:
其他好文 时间:
2016-01-08 00:39:43
阅读次数:
221