前言
在做需求时,经常遇到多个目录,也就是多个维度进行join,这里分析一下,数据是怎么流动的。
1、多目录输入
使用MultipleInputs.addInputPath() 对多目录制定格式和map
2、数据流分析
map按行读入数据,需要对不同的输入目录,打上不同的标记(这个方法又叫reduce端连接),map在输出后会进行partition和sort,按照key进行排序,然后输...
分类:
其他好文 时间:
2014-06-29 23:09:07
阅读次数:
348
使用MultipleInputs.addInputPath 对多个路径输入
现在假设有三个目录,并使用了三个mapper去处理,
经过map处理后,输出的结果会根据key 进行join,
如果使用TextPair,会根据第一个字段jion,第二个字段排序
然后在作为reduce的输入,进行计算...
分类:
其他好文 时间:
2014-06-26 07:49:51
阅读次数:
250