这篇文章主要分析以下两点内容:目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文:1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图:流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3...
分类:
其他好文 时间:
2015-03-11 21:31:48
阅读次数:
186
上一篇blog我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker所有的守护进程全部运行在K-Master节点之上。在本篇blog我们将搭建完全分布式环境,运行NameNode、SecondaryNameNode、JobTracker守护进程在主节点上,运行Da...
分类:
其他好文 时间:
2015-03-04 09:47:45
阅读次数:
142
Hadoop的MapReduce工作原理
MapReduce 角色
?Client :作业提交发起者。
?JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。
?TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。
提交作业
?在作业提交之前,需要对作业进行配置
?程序代码,主要是...
分类:
其他好文 时间:
2015-02-27 18:29:09
阅读次数:
165
最近遇到个问题,每次重启Hadoop发现HDFS控制台都无法访问,并且查看nameNode的JOBTracker日志,如下
2015-02-05 09:36:18,935 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hadoop cause:java.net.Connec...
分类:
其他好文 时间:
2015-02-05 14:59:25
阅读次数:
124
1)JobTracker运行时参数: hadoop@ubuntu:/home/zhangchao3$ ps -ef | grep job
hadoop 29563 1 0 11:34 pts/12 00:00:24 /home/hadoop/jdk1.7.0_60/bin/java -Dproc_j...
分类:
其他好文 时间:
2015-01-28 17:30:59
阅读次数:
390
Hadoop 平台优化
1. 概述
随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:
(1) Namenode/jobtracker单点故障。 Hadoo...
分类:
其他好文 时间:
2015-01-24 14:33:15
阅读次数:
172
为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面。首先,在org.apache.hadoop.http.HttpServer中的构造函数public HttpServer(String name,...
分类:
其他好文 时间:
2015-01-20 17:28:36
阅读次数:
676
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2015-01-15 12:17:12
阅读次数:
150
NimbusServer相当于hadoop里的JobTracker或yarn里的ResourceManager,在集群中属于首脑地位,负责分发任务,监控集群状态,与supervisor的通信主要通过Zookeeper。nimbus在启动过程中会做以下工作,以保证集群稳定运行:
1、清理无效topology
2、建立zk连接并创建相应znode
3、启动监控线程
4、启动httpserver...
分类:
Web程序 时间:
2015-01-13 15:58:30
阅读次数:
403
Hadoop版本 1.0.3
问题描述:
随着每日MR作业数目渐增,用户反映提交作业时经常阻塞,也就是JobTracker发生了拥堵。这种情况开始频繁出现,我们调大JobTracker端的RPC Handler线程个数,并定时对JobTracker的栈信息进行分析,如果RPC Handler线程全部被BLOCKED住了,就Dump出栈信息,并及时发出报警。
原因及解决办法:
经过分析几次抓...
分类:
其他好文 时间:
2015-01-12 16:36:49
阅读次数:
173