吴忠办吴忠证UUX

时间：2020-10-27 11:31:30 阅读：27 评论：0 收藏：0 [点我收藏+]

办吴忠证〖溦: bzs8777〗哪里办吴忠证件〖電/溦:182.1648.9071同号〗本地办理各类.证.件《诚.信.第一/专.业.定.制》自从数据源读取数据，到最终写出数据到表，无处不是使用Spark RDD作为主要数据结构，甚至连普通的工具类，都使用Spark API实现，可以说Hudi就是用Spark实现的一个通用数据湖框架，它与Spark的绑定可谓是深入骨髓。

此外，此次解耦后集成的首要引擎是Flink。而Flink与Spark在核心抽象上差异很大。Spark认为数据是有界的，其核心抽象是一个有限的数据集合。而Flink则认为数据的本质是流，其核心抽象DataStream中包含的是各种对数据的操作。

同时，Hudi内部还存在多处同时操作多个RDD,以及将一个RDD的处理结果与另一个RDD联合处理的情况，这种抽象上的区别以及实现时对于中间结果的复用，使得Hudi在解耦抽象上难以使用统一的API同时操作RDD和DataStream。

理论上,Hudi使用Spark作为其计算引擎无非是为了使用Spark的分布式计算能力以及RDD丰富的算子能力。抛开分布式计算能力外，Hudi更多是把 RDD作为一个数据结构抽象，而RDD本质上又是一个有界数据集，因此，把RDD换成List,在理论上完全可行。

为了尽可能保证Hudi Spark版本的性能和稳定性。我们可以保留将有界数据集作为基本操作单位的设定，Hudi主要操作API不变，将RDD抽取为一个泛型， Spark引擎实现仍旧使用RDD,其他引擎则根据实际情况使用List或者其他有界数据集。
https://www.cnblogs.com/Fqqccc/p/13880746.html
https://www.cnblogs.com/Fqqccc/p/13880736.html
https://www.cnblogs.com/Fqqccc/p/13880725.html

吴忠办吴忠证UUX

标签：框架另一个的区别 link spark 本质本地一个实现

原文地址：https://www.cnblogs.com/Fqqccc/p/13880753.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行