org.apache.spark.scheduler.DAGScheduler#submitMissingTasks => org.apache.spark.scheduler.TaskSchedulerImpl#submitTasks // First figure out the indexes ...
分类:
其他好文 时间:
2020-08-28 14:42:00
阅读次数:
47
引言 上一节《TaskScheduler源代码与任务提交原理浅析1》介绍了TaskScheduler的创建过程,在这一节中,我将承接《Stage生成和Stage源代码浅析》中的submitMissingTasks函数继续介绍task的创建和分发工作。 DAGScheduler中的submitMiss ...
分类:
其他好文 时间:
2017-07-21 13:22:58
阅读次数:
199
//提交stage,为stage创建一批task,task数量和partition数量相同privatedefsubmitMissingTasks(stage:Stage,jobId:Int){logDebug("submitMissingTasks("+stage+")")//GetourpendingtasksandremembertheminourpendingTasksentrystage.pendingTasks.clear()//Firstfigureoutthei..
分类:
其他好文 时间:
2017-05-05 23:10:14
阅读次数:
265
前面提到,submitMissingTask是分发任务的开始,首先submitMissingTasks判断该stage是否为shuffle map stage,是则getPreferredLocs,实例化一个ShuffleMapTasks返回一组task集合,否则是final stage,getPr...
分类:
Web程序 时间:
2015-07-26 22:37:00
阅读次数:
645
引言上一节《Stage生成和Stage源码浅析》中,我介绍了Stage生成划分到提交Stage的过程,分析最终归结到submitStage的递归提交Stage,其中要通过submitMissingTasks函数创建task集合来实现任务的创建和分发。
在接下来的几篇文章中,我将具体介绍一下任务创建和分发的过程,为了让逻辑更加清楚,我将分成几篇文章进行介绍,好保证简明清晰,逻辑连贯,前后统一。Tas...
分类:
其他好文 时间:
2015-07-18 22:50:59
阅读次数:
208
引言上一节《TaskScheduler源码与任务提交原理浅析1》介绍了TaskScheduler的创建过程,在这一节中,我将承接《Stage生成和Stage源码浅析》中的submitMissingTasks函数继续介绍task的创建和分发工作。DAGScheduler中的submitMissingTasks函数如果一个Stage的所有的parent stage都已经计算完成或者存在于cache中,那...
分类:
其他好文 时间:
2015-07-18 22:49:09
阅读次数:
140
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01
spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01...
分类:
其他好文 时间:
2015-01-20 18:06:57
阅读次数:
211
从org.apache.spark.scheduler.DAGScheduler#submitMissingTasks开始,分析Stage是如何生成TaskSet的。如果一个Stage的所有的parent stage都已经计算完成或者存在于cache中,那么他会调用submitMissingTask...
分类:
其他好文 时间:
2014-10-27 06:56:06
阅读次数:
249