ETL的数据来源，处理，保存

时间：2017-08-22 23:16:57 阅读：288 评论：0 收藏：0 [点我收藏+]

标签：ase body 来源 content 相同存在 top hive custom

1.ETL

　　数据来源：HDFS

　　处理方式：Mapreduce

　　数据保存：HBase

　　技术分享

2.为什么保存在Hbase中

　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合
　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
　　技术分享

　　技术分享

3.数据处理　　

　　MapReduce
　　　　数据流: hbase -> mapreduce -> mysql
　　Hive
　　　　数据流：hbase -> hive -> hdfs -> sqoop -> mysql

4.来源HDFS

　　这些数据是在flume中收集来的数据，这些数据在前面已经被上传到HDFS。

　　技术分享