在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。
这就是本文的主题。...
分类:
其他好文 时间:
2014-10-19 18:38:46
阅读次数:
299
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib、MLI、ML Optimizer。ML Optimizer: This layer aims to automating the task of ML pipeline construction....
分类:
编程语言 时间:
2014-10-19 18:30:41
阅读次数:
336
维基百科:RTSP:http://en.wikipedia.org/wiki/Real_Time_Streaming_ProtocolRTP:http://en.wikipedia.org/wiki/Real-time_Transport_Protocolspydroid项目地址:https://g...
分类:
其他好文 时间:
2014-10-19 15:36:08
阅读次数:
175
在一个RDD触发了一个action(比如count,collect)时,任务是如何被提交到?什么是Stage?DAGScheduler的作用是什么?它是如何划分Stage的?本文将基于源码,进行深入分析。...
分类:
其他好文 时间:
2014-10-19 00:08:01
阅读次数:
308
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂
【第17期互动问答分享】Q1:为了加快sparkshuffle的执行速度是否可以把spark_local_dirs指向一块固态硬盘上面,这样做是否有效果。可以把spark_local_dirs指向一块固态硬盘上面,这样会非常有效的提升Spark执行速度;同..
分类:
其他好文 时间:
2014-10-17 19:00:33
阅读次数:
178
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第17期互动问答分享】 ? Q1:为了加快spark?shuffle?的执行速度是否可以把spark_local_dirs?指向一块固态硬盘上面,这样做是否有效果。 可以把...
分类:
其他好文 时间:
2014-10-17 17:02:15
阅读次数:
154
略微了解Spark源代码的人应该都知道SparkContext,作为整个Project的程序入口,其重要性不言而喻,很多大牛也在源代码分析的文章中对其做了非常多相关的深入分析和解读。这里,结合自己前段时间的阅读体会,与大家共同讨论学习一下Spark的入口对象—天堂之门—SparkContex。Spa...
分类:
Web程序 时间:
2014-10-16 20:33:13
阅读次数:
271
这几天试用了下openfire相关应用,搭建一个简单的在线咨询服务,有点类似阿里旺旺,可以web页面在线咨询,也可以加为好友在pc客户端中咨询 使用场景:企业业务咨询 1.在官网http://www.igniterealtime.org/index.j...
分类:
Web程序 时间:
2014-10-16 20:22:13
阅读次数:
427
7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上; 8,启动并验证Hadoop分布式集群 ...
分类:
其他好文 时间:
2014-10-16 18:12:13
阅读次数:
233
7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;
8,启动并验证Hadoop分布式集群
第一步:格式化hdfs文件系统:
第二步:进入...
分类:
其他好文 时间:
2014-10-16 16:28:02
阅读次数:
269