首页 > 其他好文 > 详细

Spark Streaming架构设计和运行机制总结

时间：2016-06-07 06:36:50 阅读：270 评论：0 收藏：0 [点我收藏+]

标签：

本期内容 :

Spark Streaming中的架构设计和运行机制
Spark Streaming深度思考

　

　　Spark Streaming的本质就是在RDD基础之上加上Time ，由Time不断的运行触发周而复始的接收数据及产生Job处理数据。

一、 ReceiverTracker ：

　　Receiver数据接收器的启动、接收数据过程中元数据管理，元数据管理是使用内部的RPC。

　　根据时间的间隔把数据分配给当前的BatchDuration ：

　　技术分享

　　通过Dstreams中的StreamID以及这个DStreamID给这个时间段(getReceivedQueue(SteamID))的Block为例：

　　技术分享

　　不断的分配是依赖定时器，看数据生成的时候怎么产生数据及通过他的方式管理数据的。

　　技术分享

　　不断接收数据并保存起来，在BlockTracker启动Receiver时首先会启动StartReceiver 。

　　技术分享

　　写数据时有不同的BlockHandler 。

　　技术分享

　　Receiver自己的RPC ，响应不同的消息。

　　技术分享

　　定时器按照具体的时间间隔：

　　技术分享

　　技术分享

　　技术分享

二、 currentBuffer ：

　　把接收的数据保存在一个currentBuffer数据结构(属于临时数据结构)中，每次根据其时间间隔进行，每次都会New一下currentBuffer，默认是200MS。　

　　技术分享

　　技术分享

　　技术分享

　　

三、架构思考：

　　　从Spark Streaming的角度讲静态生成Dstreams，Dstreams当遇到时间的时候才会生成RDD和DStreamGenerator。

　　　基于DStreamGenerator就构成了这个依赖关系。调度层面讲JobScheduler，是基于时间的流处理框架。

　　技术分享

　　根据BatchDuration的时钟不断循环，不断的发送消息。

　　技术分享　　

　　技术分享

　　技术分享

　　以时间为基准不断的发送消息给event 。

　　技术分享

　　技术分享

　　技术分享

　　生成作业：

　　技术分享

　　

　　Spark Streaming运行核心：

　　　　Spark RDD加上Time，无论是从概念还是数据接收、数据处理，Time是驱动力，不断的循环事件、消息，时间的确定、数据、RDD接着就转到Spark Core。

　　　　备注：

- 资料来源于：王家林(Spark发行版本定制)
- 新浪微博：http://www.weibo.com/ilovepains

Spark Streaming架构设计和运行机制总结

标签：

原文地址：http://www.cnblogs.com/yinpin2011/p/5565250.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！