码迷,mamicode.com
首页 > 其他好文 > 详细

ETL的数据来源,处理,保存

时间:2017-08-22 23:16:57      阅读:288      评论:0      收藏:0      [点我收藏+]

标签:ase   body   来源   content   相同   存在   top   hive   custom   

1.ETL

  数据来源:HDFS

  处理方式:Mapreduce

  数据保存:HBase

   技术分享

 

2.为什么保存在Hbase中

  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  技术分享

  技术分享

 

3.数据处理  

  MapReduce
    数据流: hbase -> mapreduce -> mysql
  Hive
    数据流:hbase -> hive -> hdfs -> sqoop -> mysql

 

4.来源HDFS

  这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。

  技术分享

ETL的数据来源,处理,保存

标签:ase   body   来源   content   相同   存在   top   hive   custom   

原文地址:http://www.cnblogs.com/RHadoop-Hive/p/7413883.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
分享档案
周排行
mamicode.com排行更多图片
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!