本期内容:解密SparkStreamingJob架构和运行机制解密SparkStreaming容错架构和运行机制理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们知道对于一般的Spark应用程序来说,是RDD的action操作触发了Job的运行。那对于SparkStreaming来说,..
分类:
其他好文 时间:
2016-05-04 19:35:29
阅读次数:
207
Spark知识点IT十八掌课程体系SPARK知识点如下:有需要IT十八掌体系课程的可以加微信:152106399731.定义MapReduce-like集群计算框架设计的低延迟迭代和交互使用的工作。2.体系结构3.一些重要概念的解析(1)RDD(resilientdistributeddataset)弹性分布式数据集一个只读的,可分区..
分类:
其他好文 时间:
2016-05-04 19:33:59
阅读次数:
472
一、再次思考pipeline即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式:1,f(record),f作用于集合的每一条记录,每次只作用于一条记录;2,f(records),f一次性作用于集合的全部数据;Spark采用是是第一种方式,原因:1,无需等待,可以最大化的使用..
分类:
其他好文 时间:
2016-05-03 12:54:26
阅读次数:
136
Spark学习三:Spark Schedule以及idea的安装和导入源码标签(空格分隔): SparkSpark学习三Spark Schedule以及idea的安装和导入源码
一RDD操作过程中的数据位置
二Spark Schedule
三Idea导入spark源码
一,RDD操作过程中的数据位置[hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bi...
分类:
其他好文 时间:
2016-05-01 01:12:33
阅读次数:
241
问题
spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或...
分类:
其他好文 时间:
2016-04-29 20:10:04
阅读次数:
190
问题
spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或...
分类:
其他好文 时间:
2016-04-26 22:02:05
阅读次数:
1476
1、内存 spark.storage.memoryFraction:很明显,是指spark缓存的大小,默认比例0.6 spark.shuffle.memoryFraction:管理executor中RDD和运行任务时的用于对象创建内存比例,默认0.2 关于这两个参数的设置,常见的一个场景就是操作关系 ...
分类:
其他好文 时间:
2016-04-25 00:44:56
阅读次数:
136
第16课:RDD实战 由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller 1. Transformation Transformation是通过转化针对已有的RDD创建出新的RDD map( ...
分类:
其他好文 时间:
2016-04-23 16:20:29
阅读次数:
323
第15课:RDD创建内幕 Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体的算法 Spark中的基本方式: 1) 使用程序中的集合创建 这种方式的实际意义主要用于测试。 2) 使用本地文件系统 ...
分类:
其他好文 时间:
2016-04-23 11:37:48
阅读次数:
143
1、自动的进行磁盘数据和内存之间的无缝切换 2、基于lineage的高效容错,第n个出错,会从第n-1个开始执行 3、task失败会进行特定次数的重试 4、stage失败会自动进行特定次数的重试,并且只运行计算失败的数据分片 5、checkpoint(类似单机游戏里的存档)和presist,持久化c ...
分类:
其他好文 时间:
2016-04-21 23:36:29
阅读次数:
222