【摘要】 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-serv ...
分类:
其他好文 时间:
2020-02-29 16:18:30
阅读次数:
112
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:
编程语言 时间:
2020-02-29 13:14:45
阅读次数:
81
1、spark基础,什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个 子项目的集合,其 ...
分类:
其他好文 时间:
2020-02-29 11:38:28
阅读次数:
70
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja ...
分类:
其他好文 时间:
2020-02-28 22:20:00
阅读次数:
71
1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题 * 设置检查点 val sc = new SparkContext(conf) sc.setCheckpointDir(" ...
分类:
编程语言 时间:
2020-02-28 18:55:18
阅读次数:
60
一、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中 ...
分类:
其他好文 时间:
2020-02-28 14:18:23
阅读次数:
60
Application任务执行流程: 在Spark Application提交后,Driver会根据action算子划分成一个个的job,然后对每一 个job划分成一个个的stage,stage内部实际上是由一系列并行计算的task组成的,然后 以TaskSet的形式提交给你TaskSchedule ...
分类:
其他好文 时间:
2020-02-28 13:56:43
阅读次数:
49
在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于 ...
分类:
其他好文 时间:
2020-02-28 11:44:48
阅读次数:
46
Scala面向对象 前言: Scala语言是面向对象的。 ? Java是面向对象的编程语言,由于历史原因,Java中还存在着非面向对象的内容:基本类型(int,float..) ,null,静态方法等。 ? Scala语言来自于Java,所以天生就是面向对象的语言,而且Scala是纯粹的面向对象的语 ...
分类:
其他好文 时间:
2020-02-27 09:13:00
阅读次数:
78