码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
第3课:SparkStreaming 透彻理解三板斧之三:解密SparkStreaming运行机制和架构进阶之Job和容错
本期内容:解密SparkStreamingJob架构和运行机制解密SparkStreaming容错架构和运行机制理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说,是RDD的action操作触发了Job的运行。那对于SparkStreaming来说,..
分类:其他好文   时间:2016-05-04 19:35:29    阅读次数:207
IT十八掌课程体系SPARK知识点总结
Spark知识点IT十八掌课程体系SPARK知识点如下:有需要IT十八掌体系课程的可以加微信:152106399731.定义MapReduce-like集群计算框架设计的低延迟迭代和交互使用的工作。2.体系结构3.一些重要概念的解析(1)RDD(resilientdistributeddataset)弹性分布式数据集一个只读的,可分区..
分类:其他好文   时间:2016-05-04 19:33:59    阅读次数:472
从物理执行角度透视Spark Job(23)
一、再次思考pipeline即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式:1,f(record),f作用于集合的每一条记录,每次只作用于一条记录;2,f(records),f一次性作用于集合的全部数据;Spark采用是是第一种方式,原因:1,无需等待,可以最大化的使用..
分类:其他好文   时间:2016-05-03 12:54:26    阅读次数:136
Spark学习三:Spark Schedule以及idea的安装和导入源码
Spark学习三:Spark Schedule以及idea的安装和导入源码标签(空格分隔): SparkSpark学习三Spark Schedule以及idea的安装和导入源码 一RDD操作过程中的数据位置 二Spark Schedule 三Idea导入spark源码 一,RDD操作过程中的数据位置[hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bi...
分类:其他好文   时间:2016-05-01 01:12:33    阅读次数:241
Spark-理解RDD
问题 spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或...
分类:其他好文   时间:2016-04-29 20:10:04    阅读次数:190
Spark-理解RDD
问题 spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或...
分类:其他好文   时间:2016-04-26 22:02:05    阅读次数:1476
spark 性能优化
1、内存 spark.storage.memoryFraction:很明显,是指spark缓存的大小,默认比例0.6 spark.shuffle.memoryFraction:管理executor中RDD和运行任务时的用于对象创建内存比例,默认0.2 关于这两个参数的设置,常见的一个场景就是操作关系 ...
分类:其他好文   时间:2016-04-25 00:44:56    阅读次数:136
16.RDD实战
第16课:RDD实战 由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller 1. Transformation Transformation是通过转化针对已有的RDD创建出新的RDD map( ...
分类:其他好文   时间:2016-04-23 16:20:29    阅读次数:323
RDD 创建
第15课:RDD创建内幕 Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体的算法 Spark中的基本方式: 1) 使用程序中的集合创建 这种方式的实际意义主要用于测试。 2) 使用本地文件系统 ...
分类:其他好文   时间:2016-04-23 11:37:48    阅读次数:143
Spark RDD弹性7点
1、自动的进行磁盘数据和内存之间的无缝切换 2、基于lineage的高效容错,第n个出错,会从第n-1个开始执行 3、task失败会进行特定次数的重试 4、stage失败会自动进行特定次数的重试,并且只运行计算失败的数据分片 5、checkpoint(类似单机游戏里的存档)和presist,持久化c ...
分类:其他好文   时间:2016-04-21 23:36:29    阅读次数:222
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!