大数据开发

时间：2018-05-06 18:54:38 阅读：187 评论：0 收藏：0 [点我收藏+]

标签：调用函数 python hbase dfs hba rdd hdf 随机广播

1、hadoop分布式事物的一致性
2、hdfs的特征只能attend,不能update(为什么)
3、spark和hive不同使用场景：spark是基于内存的，hive是，，，，，;rdd和sql（为什么有时候复杂的时候用sql,sql更高效，spark程序,rdd是一种数据结构，dataframe有表头，）
4、spark框架
5、sparkstreming ，清洗数据，kafka
6、rdd的操作：transfrom和action
7、python数据处理，python正则，python装饰器，
8、flume是数据抽取、传输（ETL是一整个数据的处理，flume是E的）
9、impala ，什么是MPP架构，impala主要用于MPP架构，spark做清洗，impala用于查询（源于不同的），，hbase也用于查询（大表）基于hdfs的，gbase也用查询（小表）
10、storm 基于java
11、函数式编程，函数是一个完整的对象，函数可以作为传参数来传（spark（scala）、python）,函数可以继续调用函数，
12、数据倾斜的处理
倾斜原因:聚合操作时，
处理：新增随机数列，聚合时关联条件新增随机数，再次聚合关联条件不要随机数
13、广播变量、累加变量

大数据开发

标签：调用函数 python hbase dfs hba rdd hdf 随机广播

原文地址：https://www.cnblogs.com/hymmiaomiao/p/8998962.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行