码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
Spark技术内幕:Stage划分及提交源码分析
当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.a...
分类:其他好文   时间:2015-10-03 18:16:15    阅读次数:209
RDD 可视化 —— RDDOperationScope.withScope
最近在看各种博客,学习 spark 源代码。网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码,而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()旧版本是:def mapU: ClassTag: RDD[U] = new MappedRDD(thi...
分类:其他好文   时间:2015-10-02 18:34:36    阅读次数:2715
Spark里边:到底是什么RDD
RDD它是Spark基,它是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 它开着RDD文件。假设英语阅读太费时,:http://shiyanjun.cn/archives/744.html本文也是基于这篇论...
分类:其他好文   时间:2015-09-29 12:50:22    阅读次数:2546
Spark里面的任务调度:离SparkContext开始
SparkContext这是发达国家Spark入学申请,它负责的相互作用和整个集群,它涉及到创建RDD。accumulators and broadcast variables。理解力Spark架构,我们需要从入口开始。下图是图的官方网站。DriverProgram就是用户提交的程序,这里边定义了S...
分类:其他好文   时间:2015-09-25 21:41:36    阅读次数:535
sort-based shuffle的核心:org.apache.spark.util.collection.ExternalSorter
依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它,把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....
分类:Web程序   时间:2015-09-17 17:31:48    阅读次数:453
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错...
分类:其他好文   时间:2015-09-16 19:32:25    阅读次数:256
spark中的SparkContext实例的textFile使用的小技巧
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input") textFile的参数是一个path,这个path可以是: 1. 一个文件路径,这时候只装载指定的文件...
分类:其他好文   时间:2015-09-16 12:55:14    阅读次数:223
Spark-RDD简介
RDD简介 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle...
分类:其他好文   时间:2015-09-14 00:30:20    阅读次数:253
Spark中的Shuffle机制
Spark中的shuffle是在干嘛?Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。但这只是shuffle的过程,却不是shuffle的原因。为何需要shuffle呢?Shuf...
分类:其他好文   时间:2015-09-11 14:03:48    阅读次数:252
SparkGraphXTest.scala
/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....
分类:其他好文   时间:2015-09-09 18:57:40    阅读次数:113
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!