码迷,mamicode.com
首页 > 其他好文 > 详细

吴忠办吴忠证UUX

时间:2020-10-27 11:31:30      阅读:27      评论:0      收藏:0      [点我收藏+]

标签:框架   另一个   的区别   link   spark   本质   本地   一个   实现   

办吴忠证〖溦: bzs8777〗哪里办吴忠证件〖電/溦:182.1648.9071同号〗本地办理各类.证.件《诚.信.第一/专.业.定.制》自从数据源读取数据,到最终写出数据到表,无处不是使用Spark RDD作为主要数据结构,甚至连普通的工具类,都使用Spark API实现,可以说Hudi就是用Spark实现的一个通用数据湖框架,它与Spark的绑定可谓是深入骨髓。

此外,此次解耦后集成的首要引擎是Flink。而Flink与Spark在核心抽象上差异很大。Spark认为数据是有界的,其核心抽象是一个有限的数据集合。而Flink则认为数据的本质是流,其核心抽象DataStream中包含的是各种对数据的操作。

同时,Hudi内部还存在多处同时操作多个RDD,以及将一个RDD的处理结果与另一个RDD联合处理的情况,这种抽象上的区别以及实现时对于中间结果的复用,使得Hudi在解耦抽象上难以使用统一的API同时操作RDD和DataStream。

理论上,Hudi使用Spark作为其计算引擎无非是为了使用Spark的分布式计算能力以及RDD丰富的算子能力。抛开分布式计算能力外,Hudi更多是把 RDD作为一个数据结构抽象,而RDD本质上又是一个有界数据集,因此,把RDD换成List,在理论上完全可行。

为了尽可能保证Hudi Spark版本的性能和稳定性。我们可以保留将有界数据集作为基本操作单位的设定,Hudi主要操作API不变,将RDD抽取为一个泛型, Spark引擎实现仍旧使用RDD,其他引擎则根据实际情况使用List或者其他有界数据集。
https://www.cnblogs.com/Fqqccc/p/13880746.html
https://www.cnblogs.com/Fqqccc/p/13880736.html
https://www.cnblogs.com/Fqqccc/p/13880725.html

吴忠办吴忠证UUX

标签:框架   另一个   的区别   link   spark   本质   本地   一个   实现   

原文地址:https://www.cnblogs.com/Fqqccc/p/13880753.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!