二.分布式计算(Map/Reduce)分 布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按GoogleMap/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件 系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分...
分类:
其他好文 时间:
2015-11-12 20:03:39
阅读次数:
292
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使...
分类:
其他好文 时间:
2015-11-12 18:02:02
阅读次数:
230
由于datanode比较多,且各个datanode之间的namespace id一般不会错, 所以一般来说,是修改namonode上面的namespace id。 先查看某个datanode下面的namenode id 信息,比如我的默认fs路径是 /hadoop,那么就到dat...
分类:
其他好文 时间:
2015-11-03 18:02:36
阅读次数:
464
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使...
分类:
其他好文 时间:
2015-11-02 10:27:02
阅读次数:
419
MapReduce中作业调度机制主要有3种:1.先入先出FIFO Hadoop 中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2.公平调度器(相当于时间片轮转调度) 为任务分配资源的方法,其目的是随着时间的推移,让提交的作业获取等量的集群共享资源,让用户公平地...
分类:
其他好文 时间:
2015-11-01 11:23:59
阅读次数:
225
原文链接 http://www.iteblog.com/archives/977 在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删...
分类:
其他好文 时间:
2015-10-03 14:20:46
阅读次数:
232
序列化1)什么是序列化 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。2)什么是反序列化 将字节流转化为一系列结构化对象的过程。序列化的用途 1)作为一种持久化格式 2)作为一种通信的数据格式 3)作为一种数据拷贝、克隆机制序列化的特征: 1)紧凑:Hadoop中最稀缺的资源是宽带...
分类:
其他好文 时间:
2015-09-29 20:28:49
阅读次数:
457
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期..
分类:
其他好文 时间:
2015-09-23 01:19:41
阅读次数:
126
单位用的是Linux系统的字符编码是gb2312,所以生成的文件都是按照默认编码生成的。给我的文件也都是gb2312的,在hadoop中运行mapreduce出现乱码,在网上查资料说是因为hadoop的文件系统默认用的是utf-8,那么只有两条路可以选,要么改文件的编码格式,要么改在Mapredu....
分类:
其他好文 时间:
2015-09-22 18:41:58
阅读次数:
165
如果用eclipse 连接hadoop测试 一定要把core-site.xml? hdfs-site.xml 放到和包test同目录下 不然会报错程序会报File not found错误,并且加载相对应版本的的hadoop-core-xx.jar包 package test; import java.io...
分类:
编程语言 时间:
2015-09-21 16:06:36
阅读次数:
164