码迷,mamicode.com
首页 > 其他好文 > 详细

数仓设计

时间:2020-07-15 10:45:58      阅读:180      评论:0      收藏:0      [点我收藏+]

标签:pow   自己   开发   仓库   备份   错位   逻辑   维度   数据去重   

(简答题)1.如果让你来设计数据仓库并搭建相关可视化报表,你会考虑哪些问题。

1. 数据推送方式与批次,是推送增量还是推送全量,是一天一次还是一天两次;
2. 推送全量的就全删全插,推送增量的涉及到时间拉链的取法,是滚动时间还是平滑时间;
3. 多次推送的还涉及到数据去重的问题;
4. 从源端推送过来的数据还需要考虑脏数据;
5. 大致框架如下:
src --> landing层(落地) --> staging层(做逻辑处理:脏数据、重数据) --> persistent层(保留所有有效数据)
--> archive (同时备份源数据)
#------------------------------------------------------------------------------
6. 在persistent层上再进行主数据和维度表的开发,考虑需要取哪些业务字段,是从当前架构看历史还是历史架构看历史
7. 最后的可视化报表,可以用power BI制作,也可以用tablea, 考虑哪种呈现方式更加符合业务需求.

(简答题)2.在数据处理过程中,如何保证自己数据的准确性。
源端有所有数据,最后persistent层也保留所有数据
1. 两端的count(1)个数是相等的;
2. 可以抽取数字类型字段取平均值,这样能保证字段没有错位

数仓设计

标签:pow   自己   开发   仓库   备份   错位   逻辑   维度   数据去重   

原文地址:https://www.cnblogs.com/Nooni/p/13303409.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!