为什么需要用户行为宽表?把每个用户单日的行为聚合起来组成一张多列宽表,以便之后关联用户维度信息后,进行不同角度的统计分析。 创建用户行为宽表: 这张宽表整合了下单、支付和评论3种行为。 drop table if exists dws_user_action; create external tab ...
分类:
其他好文 时间:
2020-07-02 16:41:55
阅读次数:
137
业务数仓的DWD层一般有两个典型操作: ①因为是DWD层,所以要进行数据清洗。 ②因为数据来源于web项目的数据库,标的设计遵循三范式,因此在数仓里需要进行降维,以减少join次数。 在示例的8张表中,订单表,订单详情表,用户表,支付流水表字段与ODS层一致。对商品表的分类进行降维。增加二级分类,一 ...
分类:
其他好文 时间:
2020-07-02 00:05:06
阅读次数:
145
ODS层数据不做任何处理,完全仿照业务数据库中的表字段,一模一样的创建ODS层对应表。 8张表建表语句: ①用sqoop把导入到HDFS的时候,加了参数--fields-terminated-by "\t",因此这里ODS层建表的时候也注意相同的分隔符。 ②不管是全量导入还是其他形式,都使用分区表, ...
分类:
其他好文 时间:
2020-07-01 23:46:38
阅读次数:
91
BI 从早期提出的概念上来划分可以分为数据仓库、ETL、olap 和报表这几部分可以看到报表只是 BI 中的一个组成部分,只不过数据在 web 端展示时通常是通过报表形式,所以经常会把报表当做是 BI,这个概念比较容易混淆。 报表工具的功能这些年都在不断的完善,现在报表和 BI 在功能上已经高度重合 ...
分类:
其他好文 时间:
2020-06-30 17:30:26
阅读次数:
48
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54
表的分类 实体表:一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。 维度表:一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。 事务型事实表:一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流 ...
分类:
其他好文 时间:
2020-06-29 18:35:55
阅读次数:
95
储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。 数据组织形式:数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。 用途:数 ...
分类:
其他好文 时间:
2020-06-28 20:54:41
阅读次数:
67
需求:计算前1天,2天,3天的用户留存数量和用户留存率。 用户留存:某段时间内的新增用户,经过一段时间后,仍然使用应用的被认作是留存用户;这部分用户占当时新增用户的比例即是留存率。例如,5月份新增用户200,这200人在6月份启动过应用的有100人,7月份启动过应用的有80人,8月份启动过应用的有5 ...
分类:
其他好文 时间:
2020-06-26 23:56:58
阅读次数:
94
实现思路:要知道今天有哪些用户是新增用户,需要知道两件事,一是今天所有的活跃用户,因此,新增用户的数据来源,还是DWS层的设备日活表,新增用户,就是部分日活的用户。二是要知道哪些用户在以前活跃过,用今日活跃用户减去以前活跃过的用户,剩下的就是新增用户。 DWS层(每日新增设备明细表) 建表语句。 分 ...
分类:
其他好文 时间:
2020-06-26 21:53:41
阅读次数:
78
①对某一主题的分析,涉及到DWS数据服务层和ADS数据应用层。 ②业务术语 用户:用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 活跃用户:打开应用的用户即为活跃用户,不考虑用 ...
分类:
其他好文 时间:
2020-06-26 20:38:13
阅读次数:
74