码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
(版本定制)第15课:Spark Streaming源码解读之No Receivers彻底思考
hu本期内容:1、Kafka解密背景:目前NoReceivers在企业中使用的越来越多,NoReceivers具有更强的控制度,语义一致性。NoReceivers是我们操作数据来源自然方式,操作数据来源使用一个封装器,且是RDD类型的。所以SparkStreaming就产生了自定义RDD–>KafkaRDD.源码分析:1、K..
分类:其他好文   时间:2016-06-01 06:59:16    阅读次数:288
Spark Streaming源码解读之数据清理内幕彻底解密
本期内容 : Spark Streaming数据清理原理和现象 Spark Streaming数据清理代码解析 Spark Streaming一直在运行的,在计算的过程中会不断的产生RDD ,如每秒钟产生一个BachDuration同时也会产生RDD, 在这个过程中除了基本的RDD外还有累加器、广播 ...
分类:其他好文   时间:2016-05-30 07:39:38    阅读次数:190
Spark 定制版:009~Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考
本讲内容:a. Receiver启动的方式设想 b. Receiver启动源码彻底分析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们给大家具体分析了RDD的物理生成和逻辑生成过程,彻底明白DStream和RDD之间的关系,及其内部其他有关类的具体依赖等信息:a. DStream是RDD的模板,其内部generatedRDDs 保...
分类:其他好文   时间:2016-05-30 06:33:53    阅读次数:231
(版本定制)第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
本期内容:1、updateStateByKey解密2、mapWithState解密背景:整个SparkStreaming是按照BatchDuractions划分Job的。但是很多时候我们需要算过去的一天甚至一周的数据,这个时候不可避免的要进行状态管理,而SparkStreaming每个BatchDuractions都会产生一个Job,Job里面都是RDD..
分类:其他好文   时间:2016-05-28 23:30:48    阅读次数:329
Spark 定制版:008~Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
本讲内容:a. DStream与RDD关系的彻底的研究 b. Streaming中RDD的生成彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们重点给大家揭秘了JobScheduler内幕;可以说JobScheduler是整个Spark Streming的调度的核心,其地位相当于Spark Core中的DAGScheduler...
分类:其他好文   时间:2016-05-27 11:47:20    阅读次数:131
Spark的RDD检查点实现分析
Spark的RDD执行完成之后会保存检查点,便于当整个作业运行失败重新运行时候,从检查点恢复之前已经运行成功的RDD结果,这样就会大大减少重新计算的成本,提高任务恢复效率和执行效率,节省Spark各个计算节点的资源。...
分类:其他好文   时间:2016-05-26 11:34:12    阅读次数:461
Spark Streaming源码解读之生成全生命周期彻底研究与思考
本期内容 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究 问题的提出 : 1、 RDD是怎么生成的,依靠什么生成 2、执行时是否与Spark Core上的RDD执行有什么不同的 3、 运行之后我们要怎么处理 为什么有第三点 : 是因为Spark Streaming ...
分类:其他好文   时间:2016-05-24 20:45:10    阅读次数:136
Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析 多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Teark启动都有可能运行失败。 启动一个应用程序的不同Receiver采用一个不同RDD的partion ...
分类:其他好文   时间:2016-05-24 20:31:36    阅读次数:153
Spark版本定制八:Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
本期内容: 1、DStream与RDD关系彻底研究 2、Streaming中RDD的生成彻底研究 一、DStream与RDD关系彻底研究 课前思考: RDD是怎么生成的? RDD依靠什么生成?根据DStream来的 RDD生成的依据是什么? Spark Streaming中RDD的执行是否和Spar ...
分类:其他好文   时间:2016-05-24 00:08:29    阅读次数:187
(版本定制)第12课:Spark Streaming源码解读之Executor容错安全性
本期内容:1、Executor的WAL容错机制2、消息重放Executor的安全容错主要是数据的安全容错,那为什么不考虑数据计算的安全容错呢?原因是计算的时候SparkStreaming是借助于SparkCore上RDD的安全容错的,所以天然的安全可靠的。Executor的安全容错主要有:1、数据副本:有两种方..
分类:其他好文   时间:2016-05-23 19:25:31    阅读次数:207
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!