码迷,mamicode.com
首页 >  
搜索关键字:多目录输入    ( 2个结果
Hadoop多目录输入,join,进入reduce,数据流分析
前言 在做需求时,经常遇到多个目录,也就是多个维度进行join,这里分析一下,数据是怎么流动的。 1、多目录输入 使用MultipleInputs.addInputPath()  对多目录制定格式和map 2、数据流分析 map按行读入数据,需要对不同的输入目录,打上不同的标记(这个方法又叫reduce端连接),map在输出后会进行partition和sort,按照key进行排序,然后输...
分类:其他好文   时间:2014-06-29 23:09:07    阅读次数:348
hadoop 多目录输入,map到reduce如何排序
使用MultipleInputs.addInputPath 对多个路径输入 现在假设有三个目录,并使用了三个mapper去处理, 经过map处理后,输出的结果会根据key 进行join, 如果使用TextPair,会根据第一个字段jion,第二个字段排序 然后在作为reduce的输入,进行计算...
分类:其他好文   时间:2014-06-26 07:49:51    阅读次数:250
2条  
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!