搜索关键字：rdd，搜索到1327个结果！码迷,mamicode.com！

Spark技术内幕：Stage划分及提交源码分析

当触发一个RDD的action后，以count为例，调用关系如下：org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.a...

分类：其他好文时间：2015-10-03 18:16:15 阅读次数：209

RDD 可视化 —— RDDOperationScope.withScope

最近在看各种博客，学习 spark 源代码。网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码，而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()旧版本是：def mapU: ClassTag: RDD[U] = new MappedRDD(thi...

分类：其他好文时间：2015-10-02 18:34:36 阅读次数：2715

Spark里边：到底是什么RDD

RDD它是Spark基，它是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 它开着RDD文件。假设英语阅读太费时，：http://shiyanjun.cn/archives/744.html本文也是基于这篇论...

分类：其他好文时间：2015-09-29 12:50:22 阅读次数：2546

Spark里面的任务调度：离SparkContext开始

SparkContext这是发达国家Spark入学申请，它负责的相互作用和整个集群，它涉及到创建RDD。accumulators and broadcast variables。理解力Spark架构，我们需要从入口开始。下图是图的官方网站。DriverProgram就是用户提交的程序，这里边定义了S...

分类：其他好文时间：2015-09-25 21:41:36 阅读次数：535

sort-based shuffle的核心：org.apache.spark.util.collection.ExternalSorter

依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它，把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....

分类：Web程序时间：2015-09-17 17:31:48 阅读次数：453

[bigdata] Spark RDD整理

1. RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的弹性分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间可重复使用。2. 为什么会产生RDD？（1）传统的MapReduce虽然具有自动容错...

分类：其他好文时间：2015-09-16 19:32:25 阅读次数：256

spark中的SparkContext实例的textFile使用的小技巧

网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://n1:8020/user/hdfs/input") textFile的参数是一个path,这个path可以是： 1. 一个文件路径，这时候只装载指定的文件...

分类：其他好文时间：2015-09-16 12:55:14 阅读次数：223

Spark-RDD简介

RDD简介在Spark集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed DataSet，RDD），它是逻辑集中的实体，在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制，能够减少机器之间的数据重排（Data Shuffle...

分类：其他好文时间：2015-09-14 00:30:20 阅读次数：253

Spark中的Shuffle机制

Spark中的shuffle是在干嘛？Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区，从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。但这只是shuffle的过程，却不是shuffle的原因。为何需要shuffle呢？Shuf...

分类：其他好文时间：2015-09-11 14:03:48 阅读次数：252

SparkGraphXTest.scala

/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....

分类：其他好文时间：2015-09-09 18:57:40 阅读次数：113

共1327条上一页 1 ... 116 117 118 119 120 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)