码迷,mamicode.com
首页 > 其他好文 > 详细

Hive之累计报表生成

时间:2019-12-02 23:53:30      阅读:216      评论:0      收藏:0      [点我收藏+]

标签:alt   数据   join   mit   访问   src   http   nat   format   

Hive之累计报表生成

1.原始数据

u01 2019/1/21 5
u02 2019/1/23 6
u03 2019/1/22 8
u04 2019/1/20 3
u01 2019/1/23 6
u01 2019/2/21 8
u02 2019/1/23 6
u01 2019/2/22 4

2.建表映射上述数据

create table action (userId string, visitDate string, visitCount int) row format delimited fields terminated by "\t";

技术图片

 

 

 3.按照用户和月份分组生成某用户的当月总访问次数

create table action_amount
as
select tmp.userid,tmp.month,sum(tmp.visitcount) amount from (select userid,from_unixtime(unix_timestamp(visitdate,‘yyyy/mm/dd‘),‘yyyy-mm‘) month,visitcount from action) tmp group by tmp.userid,tmp.month;

技术图片

4. 通过两个表的自连接,建立临时表

create table action_tmp
as
select a.amount as a_amount,b.*
from action_amount a join action_amount b on a.userid=b.userid
where a.month <= b.month;

技术图片

 

 5. 将上述表按照userid和month分组

select userid,month,max(amount) as amount,sum(a_amount) as accumulate
from action_tmp
group by userid,month;

技术图片

Hive之累计报表生成

标签:alt   数据   join   mit   访问   src   http   nat   format   

原文地址:https://www.cnblogs.com/zhangchenchuan/p/11973764.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!