码迷,mamicode.com
首页 >  
搜索关键字:hadoop中    ( 495个结果
MapReduce排序之 二次排序
一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序。自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可以让开发人员进行二次排序。 二:技术实现 我们先来看案例需求 #需求1: 首先按照第一列数字升序排列
分类:编程语言   时间:2016-01-31 21:31:22    阅读次数:559
Hadoop中的KeyValueInputFormat
一:背景 有时候,我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式,而使用键值对的形式,使用KeyValueInputFormat就可以完成这种需求。 二:技术实现 数据源如下 操作代码如下: [java] view plain copy public class MyKeyVa
分类:其他好文   时间:2016-01-31 21:29:13    阅读次数:393
Hadoop中的GenericWritable
一:背景 某些业务的数据来源可能不同,且数据源中的分割方式也不同,导致在MapReduce编程时使用的格式化类会不同,为了包装不同的Map输出,Hadoop提供了GenericWritable类,允许我们同时操作多个不同的Map输出,输出到一个Reduce中进行处理。 技术实现: 我们对HDFS中两
分类:其他好文   时间:2016-01-31 21:22:10    阅读次数:375
Hadoop中SecondaryNameNode工作机制
首先来看一下HDFS的结构,如下图: 如上图,在HDFS架构中,NameNode是职责是管理元数据信息,DataNode的职责是负责数据存储,那么SecondaryNameNode的作用是什么呢? 其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案,下面我们来看
分类:其他好文   时间:2016-01-31 21:20:15    阅读次数:222
Hadoop中的Speculative Task调度策略
一:背景 Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job多个task运行速度不不一致,有的task运行速度明显要慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则
分类:其他好文   时间:2016-01-31 21:19:07    阅读次数:243
hadoop CLASSNAME命令使用注意点
Hadoop中可是使用hadoop CLASSNAME命令。这个CLASSNAME就是你写好的类名。hadoop CLASSNAME命令类似于java classname。 使用hadoop CLASSNAM之前,你需要设置HADOOP_CLASSPATH. Java代码 export HADOOP
分类:其他好文   时间:2016-01-27 22:59:25    阅读次数:147
hadoop中的方法的作用
/* *InputFormat类; * *作用: *1.设置输入的形式; *2.将输入的数据按照相应的形式分割成一个个spilts后再进一步拆分成对作为Mapper的输入; *3.默认使用TextInputFormat类进行处理; *4.可以通过job.setInputFormatCl...
分类:其他好文   时间:2016-01-23 21:16:11    阅读次数:131
Oozie入门
作者Boris Lublinsky, Michael Segel,译者侯伯薇发布于 2011年8月18日|注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情!分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单在Hadoop中执行的任务有时...
分类:其他好文   时间:2016-01-22 17:38:58    阅读次数:255
【转】hadoop深入研究:(十一)——序列化与Writable实现
原文链接 http://blog.csdn.net/lastsweetop/article/details/9249411所有源码在github上,https://github.com/lastsweetop/styhadoop简介在hadoop中,Writable的实现类是个庞大的家族,我们在这里...
分类:其他好文   时间:2016-01-17 16:16:04    阅读次数:213
hadoop1.0安装部署
一、需求公司线上运行有hadoop1.0和hadoop2.0,由于hadoop1.0没有处理jobtracker失败机制,它是一个单点故障,但业务还是以1.0为主,会慢慢过渡到2.0。以下我将以公司目前环境把写1.0部署步聚写出来二、知识点储备1、hadoop中NameNode、DataNode、Secondary、NameNode、JobTrac..
分类:其他好文   时间:2016-01-08 00:39:43    阅读次数:221
495条   上一页 1 ... 25 26 27 28 29 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!