码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark基本工作原理与RDD
Spark基本工作原理1、分布式2、主要基于内存(少数情况基于磁盘)3、迭代式计算RDD以及其特点1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区...
分类:其他好文   时间:2016-01-06 23:40:07    阅读次数:218
scala光速入门第五天
DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, ....
分类:其他好文   时间:2016-01-06 20:10:37    阅读次数:216
第2课 Scala面向对象彻底精通及Spark源码SparkContext,RDD阅读总结
第2课:Scala面向对象彻底精通及Spark源码阅读本期内容:1 Scala中的类、object实战详解 2 Scala中的抽象类、接口实战详解 3 综合案例及Spark源码解析一:定义类class HiScala{private var name = "Spark" def sayName(){...
分类:其他好文   时间:2016-01-03 17:32:51    阅读次数:387
Spark Programming--Actions
firstdef first(): Tfirst返回RDD中的第一个元素,不排序。例子:countdef count(): Longcount返回RDD中的元素数量例子:reducedef reduce(f: (T, T) ? T): T根据映射函数f,对RDD中的元素进行二元计算,返回计算结果(可...
分类:其他好文   时间:2016-01-02 14:24:21    阅读次数:335
Spark Programming--Actions II
saveAsTextFilesaveAsTextFile(path,compressionCodecClass=None)aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中, 将每一个元素以string格式存储(结合python的loads和dumps可以很好应用)Paramet...
分类:其他好文   时间:2016-01-02 14:19:06    阅读次数:228
Spark Programming--Transformations
map将RDD中的每个数据项,一对一的映射关系,RDD数目不变,分区数也不变例子:数据集:map操作:flatMap和map一样,但是会拆分每一个map之后的list,可以理解为一对多(注:会把字符串当作数组然后拆分)例子:distinct对RDD的数据项进行去重操作例子:coalescedef c...
分类:其他好文   时间:2016-01-02 14:13:08    阅读次数:200
Spark源码阅读(1): Stage划分
Spark中job由action动作生成,那么stage是如何划分的呢?一般的解答是根据宽窄依赖划分。那么我们深入源码看看吧一个action 例如count,会在多次runJob中传递,最终会到一个函数 dagScheduler.runJob(rdd, cleanedFunc, partitions...
分类:其他好文   时间:2016-01-01 23:04:37    阅读次数:319
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html在源码阅读时,需要重点把握以下两大主线。静态view即 RDD, transformation and action动态view即life of a job, 每一个job又分为多个stage,每一个st...
分类:其他好文   时间:2015-12-31 19:00:49    阅读次数:173
Spark Programming--Fundamental operation
sc.parallelize():创建RDD,建议使用xrangegetNumPartitions():获取分区数glom():以分区为单位返回listcollect():返回list(一般是返回driver program)例子:sc.textFile(path):读取文件,返回RDD官网函数:t...
分类:其他好文   时间:2015-12-30 23:42:48    阅读次数:259
RDD的iterator中的缓存处理内幕 -- (视频笔记)
前提storageLevel != null读源码查看先看ietrator,查看storageLevel看sparkEnv.getMemoryManger,通过block manager来操作具体的storage,a list of partitions;RDD获取缓存实质上通过block mana...
分类:其他好文   时间:2015-12-30 13:04:21    阅读次数:141
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!