数据集文件:
customers:
1,Stephanie leung,555-555-555
2,Edward Kim,123-456-7890
3,Jose Madriz,281-330-8004
4,David Stork,408-555-0000
orders:
3,A,12.95,02-Jun-2008
1,B,88.25,20-May-2008
2,C,32.00,30-Nov...
分类:
其他好文 时间:
2015-08-29 09:54:52
阅读次数:
203
侧联结原理:
Map端工作:为来自不同表,也就是多个数据集的key/value对贴上一个标签,来区别不同数据源的记录。然后用链接字段作为kye,其余部分和新加的标志作为value,最后输出一个记录包。也就是说。,map端的工作就是做来源判断,并对符合key的值进行区分。
Map端完成之后就是就将数据分组了。
Reduce端工作:在reduce端以链接字段作为key的分组已经完成,我们只需要在...
分类:
其他好文 时间:
2015-08-29 00:55:49
阅读次数:
142