码迷,mamicode.com
首页 > 编程语言 > 详细

9.2.1 hadoop mapreduce任务输出的默认排序

时间:2020-02-16 01:06:19      阅读:74      评论:0      收藏:0      [点我收藏+]

标签:bsp   软件   内存   lan   mapred   顺序   点击   智能   hadoop   

    任务的默认排序

MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要。默认是按照字典顺序排序,且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序,不能保证所有输出全局有序。

MapTask,当环形缓冲区使用率到达一定阈值后进行一次快速排序,将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序。ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写到磁盘上,否则存储在内存中。如果内存中文件大小或者数据超过一定阈值,则进行一次合并后将数据溢写到磁盘上。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大的文件;当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取:

https://www.cnblogs.com/bclshuai/p/11380657.html

9.2.1 hadoop mapreduce任务输出的默认排序

标签:bsp   软件   内存   lan   mapred   顺序   点击   智能   hadoop   

原文地址:https://www.cnblogs.com/bclshuai/p/12315342.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!