搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark基本工作原理与RDD

Spark基本工作原理1、分布式2、主要基于内存（少数情况基于磁盘）3、迭代式计算RDD以及其特点1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区...

分类：其他好文时间：2016-01-06 23:40:07 阅读次数：218

scala光速入门第五天

DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, ....

分类：其他好文时间：2016-01-06 20:10:37 阅读次数：216

第2课 Scala面向对象彻底精通及Spark源码SparkContext，RDD阅读总结

第2课：Scala面向对象彻底精通及Spark源码阅读本期内容：1 Scala中的类、object实战详解 2 Scala中的抽象类、接口实战详解 3 综合案例及Spark源码解析一：定义类class HiScala{private var name = "Spark" def sayName(){...

分类：其他好文时间：2016-01-03 17:32:51 阅读次数：387

Spark Programming--Actions

firstdef first(): Tfirst返回RDD中的第一个元素，不排序。例子：countdef count(): Longcount返回RDD中的元素数量例子：reducedef reduce(f: (T, T) ? T): T根据映射函数f，对RDD中的元素进行二元计算，返回计算结果（可...

分类：其他好文时间：2016-01-02 14:24:21 阅读次数：335

Spark Programming--Actions II

saveAsTextFilesaveAsTextFile(path,compressionCodecClass=None)aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中，将每一个元素以string格式存储（结合python的loads和dumps可以很好应用）Paramet...

分类：其他好文时间：2016-01-02 14:19:06 阅读次数：228

Spark Programming--Transformations

map将RDD中的每个数据项，一对一的映射关系，RDD数目不变，分区数也不变例子：数据集：map操作：flatMap和map一样，但是会拆分每一个map之后的list，可以理解为一对多（注：会把字符串当作数组然后拆分）例子：distinct对RDD的数据项进行去重操作例子：coalescedef c...

分类：其他好文时间：2016-01-02 14:13:08 阅读次数：200

Spark源码阅读(1): Stage划分

Spark中job由action动作生成，那么stage是如何划分的呢？一般的解答是根据宽窄依赖划分。那么我们深入源码看看吧一个action 例如count，会在多次runJob中传递，最终会到一个函数 dagScheduler.runJob(rdd, cleanedFunc, partitions...

分类：其他好文时间：2016-01-01 23:04:37 阅读次数：319

Spark源码学习2

转自：http://www.cnblogs.com/hseagle/p/3673123.html在源码阅读时，需要重点把握以下两大主线。静态view即 RDD, transformation and action动态view即life of a job, 每一个job又分为多个stage，每一个st...

分类：其他好文时间：2015-12-31 19:00:49 阅读次数：173

Spark Programming--Fundamental operation

sc.parallelize()：创建RDD，建议使用xrangegetNumPartitions()：获取分区数glom()：以分区为单位返回listcollect()：返回list（一般是返回driver program）例子：sc.textFile(path):读取文件，返回RDD官网函数：t...

分类：其他好文时间：2015-12-30 23:42:48 阅读次数：259

RDD的iterator中的缓存处理内幕 -- （视频笔记）

前提storageLevel != null读源码查看先看ietrator，查看storageLevel看sparkEnv.getMemoryManger，通过block manager来操作具体的storage，a list of partitions；RDD获取缓存实质上通过block mana...

分类：其他好文时间：2015-12-30 13:04:21 阅读次数：141

共1327条上一页 1 ... 111 112 113 114 115 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)