码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop MR Job 关于如何控制Map Task 数量

时间:2015-06-16 19:01:06      阅读:158      评论:0      收藏:0      [点我收藏+]

标签:

  整理下,基本分两个方式:

  一、对于大量大文件(大于block块设置的大小)

     增大minSize,即增大mapred.min.split.size的值,原因:splitsize=max(minisize,min(maxsize,blocksize)),blocksize一般不会做修改.

     在没有设置minisize,maxsize时,splitsize取blocksize.

     

  二、对于大量小文件(小于block块设置的大小)

    这种情况通过增大mapred.min.split.size不可行,

           需要使用FileInputFormat衍生的CombineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理,从而减少mapper的数量

Hadoop MR Job 关于如何控制Map Task 数量

标签:

原文地址:http://www.cnblogs.com/yako/p/4581243.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!