码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
spark内核揭秘-05-SparkContext核心源码解析初体验
SparkContext在获得了一系列的初始化信息后开始创建并启动TaskScheduler实例: 进入createTaskScheduler方法: spark内核揭秘-05-SparkContext核心源码解析初体验 我们看一下其Standalone的方式: 在上述代码中首先实例化一个TaskSchedulerImpl: 然后构建出了masterUrls: 接着创建出了非常关键的backend:...
分类:其他好文   时间:2015-01-19 15:47:44    阅读次数:169
spark foldByKey
package com.latrobe.spark import org.apache.spark.{SparkContext, SparkConf} /** * Created by spark on 15-1-18. */ object FoldByKey { def main(args: Array[String]) { val conf = new SparkConf(...
分类:数据库   时间:2015-01-19 00:19:50    阅读次数:782
Spark PairRDDFunctions flatMapValues
package com.latrobe.spark import org.apache.spark.{SparkContext, SparkConf} /** * Created by spark on 15-1-18. */ object FlatMapValues { def main(args: Array[String]) { val conf = new SparkC...
分类:其他好文   时间:2015-01-18 22:43:54    阅读次数:384
Spark技术内幕:Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户...
分类:其他好文   时间:2015-01-18 19:47:34    阅读次数:226
Spark技术内幕:Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuf...
分类:其他好文   时间:2015-01-18 19:46:55    阅读次数:1000
Spark OOM:java heap space,OOM:GC overhead limit exceeded解决方法
问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limit exceeded这两种错误之前我一直认为是exec...
分类:编程语言   时间:2015-01-18 18:22:17    阅读次数:220
spark rddToPairRDDFunctions countByKey
package com.latrobe.spark import org.apache.spark.{SparkContext, SparkConf} /** * Created by spark on 15-1-18. * 计算出每个key对应的value的数量 */ object CountByKey { def main(args: Array[String]) { v...
分类:其他好文   时间:2015-01-18 15:48:22    阅读次数:251
spark RDD countApproxDistinct
package com.latrobe.spark import org.apache.spark.{SparkConf, SparkContext} /** * Created by spark on 15-1-18. * countApproxDistinct : RDD的一个方法,作用是对RDD集合内容进行去重统计。 * 该统计是一个大约的统计,参数relativeSD控制统计的精...
分类:移动开发   时间:2015-01-18 15:47:14    阅读次数:194
spark内核揭秘-04-spark任务调度系统个人理解
spark内核揭秘-04-spark任务调度系统个人理解 spark内核揭秘-04-spark任务调度系统个人理解 spark内核揭秘-04-spark任务调度系统个人理解 spark内核揭秘-04-spark任务调度系统个人理解...
分类:其他好文   时间:2015-01-18 14:27:26    阅读次数:168
spark内核揭秘-02-spark集群概览
spark内核揭秘-02-spark集群概览 spark内核揭秘-02-spark集群概览 spark内核揭秘-02-spark集群概览 spark内核揭秘-02-spark集群概览...
分类:其他好文   时间:2015-01-18 10:36:10    阅读次数:219
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!