码迷,mamicode.com
首页 > 其他好文 > 详细

大数据开发

时间:2018-05-06 18:54:38      阅读:187      评论:0      收藏:0      [点我收藏+]

标签:调用函数   python   hbase   dfs   hba   rdd   hdf   随机   广播   

1、hadoop分布式事物的一致性
2、hdfs的特征 只能attend,不能update(为什么)
3、spark和hive不同使用场景:spark是基于内存的,hive是,,,,,;rdd和sql(为什么有时候复杂的时候用sql,sql更高效,spark程序,rdd是一种数据结构,dataframe有表头,)
4、spark框架
5、sparkstreming ,清洗数据,kafka
6、rdd的操作:transfrom和action
7、python数据处理,python正则,python装饰器,
8、flume是数据抽取、传输(ETL是一整个数据的处理,flume是E的)
9、impala ,什么是MPP架构,impala主要用于MPP架构,spark做清洗,impala用于查询(源于不同的),,hbase也用于查询(大表)基于hdfs的,gbase也用查询(小表)
10、storm 基于java
11、函数式编程,函数是一个完整的对象,函数可以作为传参数来传(spark(scala)、python),函数可以继续调用函数,
12、数据倾斜的处理
倾斜原因:聚合操作时,
处理:新增随机数列,聚合时关联条件新增随机数,再次聚合关联条件不要随机数
13、广播变量、累加变量

大数据开发

标签:调用函数   python   hbase   dfs   hba   rdd   hdf   随机   广播   

原文地址:https://www.cnblogs.com/hymmiaomiao/p/8998962.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!