Apache Spark: http://spark.apache.org/ ...
分类:
其他好文 时间:
2020-02-22 12:08:37
阅读次数:
48
https://blog.csdn.net/boling_cavalry/article/details/86747258 https://www.cnblogs.com/xuliangxing/p/7234014.html 第二个链接较为详细,但版本较旧 注意spark 7077端口URL,如果h ...
分类:
其他好文 时间:
2020-02-22 09:20:09
阅读次数:
75
DAGScheduler类位置:org.apache.spark.scheduler //DAGScheduler调度的核心入口 1 private[scheduler] def handleJobSubmitted(jobId: Int, 2 finalRDD: RDD[_], 3 func: ( ...
分类:
其他好文 时间:
2020-02-22 00:19:46
阅读次数:
64
学习一个新框架方法: 推荐:官网+源码 跪在坚持 hadoop.apache.org spark.apache.org flink.apache.org storm.apache.org Hadoop:由HDFS/YARN/Map Reduce构成 HDFS 一个NameNode 和多个DATa N ...
分类:
其他好文 时间:
2020-02-21 18:19:23
阅读次数:
55
大致可以将大数据的计算引擎分成了 4 代。 1、第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在 上层应用实现多个App的串联 ,才能完成一个完整的算法,例 ...
分类:
其他好文 时间:
2020-02-21 12:50:43
阅读次数:
77
什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象(其实是计算抽象)。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 不可变:数据一旦写入,不可更改;联想到java 中的String类型, ...
分类:
其他好文 时间:
2020-02-20 21:55:51
阅读次数:
104
1、在一个完整的数据转换流程里往往涉及到多个具有衍生关系RDD,这些RDD其实是通过逻辑串联来利用装饰器模式层层包装扩展的的一堆对象,这些相邻RDD间必须有继承关系。并且比Java中的装饰器来的更彻底,借助Scala的抽象控制特性,这一系列RDD不代表任何实际数据,也不负责装载数据,描述的是纯粹的逻 ...
分类:
其他好文 时间:
2020-02-20 20:30:35
阅读次数:
69
在早期版本的Spark中,shuffle过程没有磁盘读写操作,是纯内存操作,后来发现效率较低,且极易引发OOME,较新版本的Shuffle操作都加入了磁盘读写进行了改进。 1、未经优化的HashShuffleManager:上一个stage中每一个task会对下一个stage的每一个task写一份数 ...
分类:
其他好文 时间:
2020-02-20 20:29:21
阅读次数:
62
1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口,接口在本地通过RPC框架的动态代理机制生成一个对应的实现类,在这个实现类中完成soket通信、远程调用等功能的逻辑包装,而在RPC的服务端既编写业务接口也编写了具体的业务实现类,通过RPC框架以接口的方式暴露出来, ...
分类:
其他好文 时间:
2020-02-20 20:17:31
阅读次数:
57