码迷,mamicode.com
首页 > 其他好文 > 详细

MR计算框架

时间:2020-07-07 17:43:22      阅读:85      评论:0      收藏:0      [点我收藏+]

标签:block   image   mem   inf   产生   一个   第四次   图片   memory   

技术图片

map数量

  • 计算向数据移动,map计算框架移动到Block

  • map和Block不是一一对应,map与逻辑片(split)一一对应。原因:单个块可能过大,map处理时间长。所以block逻辑分块,多来几个map

reduce数量

  • 按理说reduce应该和key数量一样,但是可能存在不同key对应的数据量不一样,有的太累有的太闲

  • 一个reduce可以处理不同的key

  • 死板:同一个key必须在一个reduce 上执行

四个阶段

  • 切片

  • map

  • shuffle:相同的key成一组,交给同一个reduce处理

  • reduce

技术图片

  • buffer in memory: 内存缓冲区

  • partition sort: 相同的key放在一起 第一次排序(分区排序)

  • key1 key2 交给同一个reduce,但是第一次排序完成了把key1 key2放在一个partion,但是内部是无序的

  • map阶段的 第二次排序, partion内部排序

  • buffer满了以后不是立即发到reduce,因为buffer size小,用一次传输不值得

  • 所以buffer满了以后 先spill to disk 溢写到磁盘

  • 多个溢写小文件merge to disk第三次排序

  • shuffle:多个map产生多个merge to disk,reduce不能说来一个map我处理一次,所以在这之前先第四次排序归并排序

技术图片

MR计算框架

标签:block   image   mem   inf   产生   一个   第四次   图片   memory   

原文地址:https://www.cnblogs.com/Coeus-P/p/13261899.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!