Hadoop端口说明:默认端口 设置位置 描述信息8020 namenode RPC交互端口8021 JT RPC交互端口50030 mapred.job.tracker.http.address JobTracker administrative web GUI JOBTRACKER的HTTP服务...
分类:
其他好文 时间:
2014-09-19 15:26:05
阅读次数:
168
hive在生产环境中由于用户数量和身份的不同,难免会对用户按组进行划分,根据不同组的优先级划分hadoop资源,hadoop fairscheduler支持按用户组划分资源池,每个group对应一个组pool,然后根据pool优先级划分mapreduce资源,在map-site.xml中添加以下配置即可实现按组划分:
mapred.jobtracker.taskScheduler...
分类:
其他好文 时间:
2014-09-16 17:29:10
阅读次数:
286
hadoop 错误处理机制1.硬件故障 硬件故障是指jobtracker故障或TaskTracker 故障 jobtracker是单点,若发生故障,目前hadoop 还无法处理,唯有选择最牢靠的硬件作为jobtracker jobtracker通过心跳(周期1分钟) 信号来了解TaskTrac...
分类:
其他好文 时间:
2014-09-11 10:54:11
阅读次数:
153
任务执行优化1. 推测式执行: 如果jobtracker 发现有拖后的任务,会再启动一个相同的备份任务,然后哪个先执行完就会去kill掉另一个,因此会在监控页面上经常能看到正常执行完的作业会有被kill掉的任务。2.推测式执行缺省打开,但如果是代码问题,并不能解决问题,而且会使集群更慢,通过在ma....
分类:
其他好文 时间:
2014-09-10 23:39:31
阅读次数:
317
MapReduce工作原理图文详解正文:1.MapReduce作业运行流程流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都...
分类:
其他好文 时间:
2014-09-10 19:23:20
阅读次数:
245
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2014-09-07 14:46:55
阅读次数:
449
Hadoop1的HDFS和Mapreduce在高可用和拓展性方面存在问题。 HDFS存在的问题: Namenode单点故障,难以应用于在线场景。 Namenode压力过大,且内存受限,影响系统扩展性。 Mapreduce存在问题: Jobtracker单点故障 ...
分类:
其他好文 时间:
2014-09-04 10:40:49
阅读次数:
254
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child类中的Main方法,这个方法是如何执行的。1,从命令参数中解析相应参数,获取JVMID、建立RPC连...
分类:
其他好文 时间:
2014-08-31 01:36:00
阅读次数:
259
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程。中间留了一个问题,就是任务到底是怎么分配的。任务的分配自然是由JobTracker做出来的,具体来说,存在一个抽象类:TaskScheduler,主要负责分配任务,继承该类的有几个类:Capaci...
分类:
其他好文 时间:
2014-08-30 05:36:19
阅读次数:
359
初次在VM上配置Hadoop,开了三台虚拟机,一个作namenode,jobtracker另外两台机子作datanode,tasktracker配置好后,启动集群通过http://localhost:50700查看cluster状况Hadoop配置datanode无法连接到master发现没有dat...
分类:
其他好文 时间:
2014-08-29 15:54:18
阅读次数:
201