码迷,mamicode.com
首页 > 其他好文 > 详细

大数据面试题

时间:2018-09-22 19:47:53      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:ado   hdfs   元数据   system   name   调度   节点   nod   shu   

1、介绍一下Hadoop的框架

存储hdfs,计算框架MapReduce,资源管理Yarn

2、简单说下HDFS的读写流程

a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而

  namenode里存放block位置信息的元数据。

b、Namenode返回所有block的位置信息,并将这些信息返回给客户端。

c、客户端拿到block的位置信息后调用FSDataInputStream  API的read方法并行的读取block信息,block默认是3个副本,所以每个block只需要取一个副本就可以了。

d、datanode返回给客户端。

3、介绍下HDFS中实现数据容错的方式/机制

a、每个数据块3个副本,分布在不同的机架上

b、DataNode定期向NameNode发送心跳

4、介绍一下Yarn的框架结构

5、介绍一下Yarn框架中的Job调度方式

6、说明一下MapReduce的框架结构

7、简单说明一下MapReduce中的Shuffle过程

8、MapReduce的容错机制是如何实现的

9、MapReduce的二次排序机制是什么?

10、HDFS启动流程

11、MapReduce的生命周期/MapReduce的提交执行流程

大数据面试题

标签:ado   hdfs   元数据   system   name   调度   节点   nod   shu   

原文地址:https://www.cnblogs.com/zk753159/p/9690668.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!