当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.a...
分类:
其他好文 时间:
2015-10-03 18:16:15
阅读次数:
209
最近在看各种博客,学习 spark 源代码。网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码,而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()旧版本是:def mapU: ClassTag: RDD[U] = new MappedRDD(thi...
分类:
其他好文 时间:
2015-10-02 18:34:36
阅读次数:
2715
RDD它是Spark基,它是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 它开着RDD文件。假设英语阅读太费时,:http://shiyanjun.cn/archives/744.html本文也是基于这篇论...
分类:
其他好文 时间:
2015-09-29 12:50:22
阅读次数:
2546
SparkContext这是发达国家Spark入学申请,它负责的相互作用和整个集群,它涉及到创建RDD。accumulators and broadcast variables。理解力Spark架构,我们需要从入口开始。下图是图的官方网站。DriverProgram就是用户提交的程序,这里边定义了S...
分类:
其他好文 时间:
2015-09-25 21:41:36
阅读次数:
535
依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它,把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....
分类:
Web程序 时间:
2015-09-17 17:31:48
阅读次数:
453
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错...
分类:
其他好文 时间:
2015-09-16 19:32:25
阅读次数:
256
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input") textFile的参数是一个path,这个path可以是: 1. 一个文件路径,这时候只装载指定的文件...
分类:
其他好文 时间:
2015-09-16 12:55:14
阅读次数:
223
RDD简介 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle...
分类:
其他好文 时间:
2015-09-14 00:30:20
阅读次数:
253
Spark中的shuffle是在干嘛?Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。但这只是shuffle的过程,却不是shuffle的原因。为何需要shuffle呢?Shuf...
分类:
其他好文 时间:
2015-09-11 14:03:48
阅读次数:
252
/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....
分类:
其他好文 时间:
2015-09-09 18:57:40
阅读次数:
113