当我们在使用spark编写mr作业是,最后都要涉及到调用reduce,foreach或者是count这类action来触发作业的提交,所以,当我们查看这些方法的源码时,发现底层都调用了SparkContext的runJob方法,而SparkContext的runJob方法又调用的DAGSchedul ...
分类:
其他好文 时间:
2018-04-05 23:10:53
阅读次数:
312
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phadoop-2.6 \-Phive -Phive-thriftserver \-Dhadoop.versi ...
分类:
其他好文 时间:
2018-01-27 19:14:31
阅读次数:
169
引言 对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码,只有知道了这些之后,碰到某个stage执行特别慢或者报错,你才能快速定位到对应的代码,对其进行性能 ...
分类:
其他好文 时间:
2018-01-07 00:53:21
阅读次数:
240
由于近期准备深入研究一下Spark的核心源码,所以开了这一系列用来记录自己研究spark源码的过程! 想要读源码,那么第一步肯定导入spark源码啦(笔者使用的是IntelliJ IDEA),在网上找了一圈,尝试了好几种方法都没有成功,最终通过自己摸索出了一种非常简单的方式(只需要两步即可!) 环境 ...
分类:
其他好文 时间:
2017-12-30 20:00:20
阅读次数:
198
要点: 代码针对于 spark 1.6.1源码 1, TaskScheduler如何注册application, executor如何反注册 2, DAGScheduler 3, spark UI 一、SparkConf概述 SparkContext需要传入SparkConf来进行初始化,Spark ...
分类:
其他好文 时间:
2017-12-17 23:42:12
阅读次数:
172
一 、概述 我们知道Spark Shuffle机制总共有三种: 1.未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数是S * R,不仅文件数量很多,造成频繁的磁盘和网络I/O,而且内存负担也很大,GC频繁,经常出现O ...
分类:
其他好文 时间:
2017-12-17 00:07:57
阅读次数:
265
1.1设置机器名:hostname gedit /etc/sysconfig/network Scala http://www.scala lang.org/ cd /opt mkdir scala cp /home/hserver1/desktop/scala 2.12.2.tgz /opt/sc ...
分类:
其他好文 时间:
2017-12-11 22:09:04
阅读次数:
236
下载spark源码包,解压缩 ,执行以下脚本 ...
分类:
其他好文 时间:
2017-12-06 13:02:05
阅读次数:
138
转载自:https://zhuanlan.zhihu.com/p/25772054 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式 ...
分类:
其他好文 时间:
2017-11-05 13:09:33
阅读次数:
216
掌握implicit的用法是阅读spark源码的基础,也是学习scala其它的开源框架的关键,implicit 可分为: 隐式参数 隐式转换类型 隐式调用函数 1.隐式参数 当我们在定义方法时,可以把最后一个参数列表标记为implicit,表示该组参数是隐式参数。一个方法只会有一个隐式参数列表,置于 ...
分类:
其他好文 时间:
2017-10-27 02:01:15
阅读次数:
178