依据Spark 1.4.1源码SparkContext的broadcast方法注释可以用SparkContext将一个变量广播到所有的executor上,使得所有executor都能获取这个变量代表的数据。SparkContext对于broadcast方法的注释为:/** * Broadcast a...
分类:
其他好文 时间:
2015-08-16 12:03:38
阅读次数:
261
课程内容
Spark修炼之道(基础篇)——Linux基础(12讲)大纲
Spark修炼之道(进阶篇)——Spark入门到精通(30讲)大纲
Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)大纲
Spark修炼之道(高级篇)——Spark源码解析(50讲)大纲
1. Spark修炼之道(基础篇)——Linux基础(12讲)大纲
2. Spark修炼之道(进阶篇)——Spa...
分类:
其他好文 时间:
2015-08-15 10:27:31
阅读次数:
127
Spark源码阅读笔记之Broadcast:Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效。序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),超出该限制的任务会被抛弃。因此,对于需要共享比较大的数据时,需要使用Broadcast。...
分类:
其他好文 时间:
2015-08-13 15:59:17
阅读次数:
600
转载自:http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装sca...
分类:
Web程序 时间:
2015-08-08 18:06:52
阅读次数:
123
王家林亲授《DT大数据梦工厂》大数据实战视频“Scala深入浅出实战经典”视频、音频和PPT下载!第74讲:从Spark源码的角度思考Scala中的模式匹配百度云:http://pan.baidu.com/s/1hqJByvU腾讯微云:http://url.cn/chV3CI360云盘:http:/...
分类:
其他好文 时间:
2015-08-01 21:50:56
阅读次数:
113
今天跟随王老师学习了从源码角度去分析scala中的模式匹配的功能。让我们看看源码中的这一段模式匹配:从代码中我们可以看到,case RegisterWorker(id,workerHost,........){}这里为模式匹配,而我们的模式匹配类RegisterWorker之前就已定义好,如下图:我...
分类:
其他好文 时间:
2015-08-01 14:09:11
阅读次数:
115
学习了从Spark源码的角度思考Scala中的模式匹配,如caseclass应用,伴生对象中用apply,所以没有newclass,直接进行模式匹配,例子如下CaseclassRegisterWorker(Id:string,Host:string,Port:int,Cores:int,Memory...
分类:
其他好文 时间:
2015-08-01 08:51:58
阅读次数:
98
RDD的操作可以分为Transformations和Actions,Transformations是lazy的不立即执行,Action则会触发作业的提交和执行。例如本例中的foreachdef foreach(f: T => Unit) { sc.runJob(this, (iter: Itera....
分类:
Web程序 时间:
2015-07-26 10:58:09
阅读次数:
139
学习了Scala并发编程匿名Actor、消息传递、偏函数实战解析及其在Spark源码中的应用解析,具体来说Scala就是通过actor_message=actor{},实现匿名Actor并发消息传递的,这样就的方法在spark用应用很广泛,极大地简化了程序编写,提高效率:defmain(args:A...
分类:
其他好文 时间:
2015-07-25 08:19:03
阅读次数:
224