本篇博文的目标如下:
1. ReceiverBlockTracker容错安全性
2. DStream和JobGenerator容错安全性文章的组织思路如下:
考虑Driver容错安全性,我们要思考什么?
再详细分析ReceiverBlockTracker,DStream和JobGenerator容错安全性一:容错安全性
1. ReceivedBlockTracker负责管理Spa...
分类:
其他好文 时间:
2016-05-27 12:21:02
阅读次数:
169
本篇博文的目标是
1. Executor的WAL机制详解
2. 消息重放Kafka数据安全性的考虑:
Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行。所以这就涉及到一个非常重要的问题数据安全性。
Spark Streaming是基于Spark Core之上的,如果能够确保数据安全可好的话,在Spark Streaming生成Job的时候里面是基...
分类:
其他好文 时间:
2016-05-27 12:19:58
阅读次数:
233
本讲内容:a. JobScheduler内幕实现
b. JobScheduler深度思考注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们以JobGenerator类为重心,为大家左右延伸,解密Job之动态生成;并总结出了Job之动态生成的三大核心:a. JobGenerator: 负责Job生成b. JobSheduler:负责Job...
分类:
其他好文 时间:
2016-05-27 12:19:58
阅读次数:
160
Spark-1.6.0源码中默认的Sort Based Shuffle, Shuffle Write和Shuffle Read过程分析。...
分类:
其他好文 时间:
2016-05-27 11:49:31
阅读次数:
259
本讲内容:a. DStream与RDD关系的彻底的研究
b. Streaming中RDD的生成彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们重点给大家揭秘了JobScheduler内幕;可以说JobScheduler是整个Spark Streming的调度的核心,其地位相当于Spark Core中的DAGScheduler...
分类:
其他好文 时间:
2016-05-27 11:47:20
阅读次数:
131
1。数据接收架构设计模式
2。数据接收源码彻底研究sparkstreaming接收数据的特征:
第一个特征:不断地持续地接收数据;
第二个特征:一般receiver和driver不再同一个进程中,接受后不断地汇报给driver,driver根据接受到的数据的元数据来负责调度架构上看,有个循环器不断地接收数据,存储数据,汇报给driver,其中接收数据和存储数据不是同一个对象负责。receive...
分类:
其他好文 时间:
2016-05-27 11:19:04
阅读次数:
280
本期内容:1.ReceiverBlockTracker容错安全性2.DStream和JobGenerator容错安全性一:容错安全性1.ReceivedBlockTracker负责管理SparkStreaming运行程序的元数据。数据层面2.DStream和JobGenerator是作业调度的核心层面,也就是具体调度到什么程度了,从运行的考虑的。DStream是..
分类:
其他好文 时间:
2016-05-25 15:17:57
阅读次数:
450
本期内容 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究 问题的提出 : 1、 RDD是怎么生成的,依靠什么生成 2、执行时是否与Spark Core上的RDD执行有什么不同的 3、 运行之后我们要怎么处理 为什么有第三点 : 是因为Spark Streaming ...
分类:
其他好文 时间:
2016-05-24 20:45:10
阅读次数:
136
本期内容 : 数据接收架构设计模式 数据接收源码彻底研究 一、Spark Streaming数据接收设计模式 Spark Streaming接收数据也相似MVC架构: 1、 Mode相当于Receiver存储数据,C级别的,Receiver是个抽象因为他有好多的Receiver 2、 Receive ...
分类:
其他好文 时间:
2016-05-24 20:44:13
阅读次数:
176
本期内容 : Executor的WAL 消息重放 数据安全的角度来考虑整个Spark Streaming : 1、 Spark Streaming会不断次序的接收数据并不断的产生Job ,不断的提交Job到集群运行,至关重要的问题接收数据安全性 2、 由于Spark Streaming是基于Spar ...
分类:
其他好文 时间:
2016-05-24 20:38:23
阅读次数:
175