四、知识点 1. 数据仓库基本介绍 英文名称为==Data Warehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同 ...
分类:
其他好文 时间:
2020-06-26 20:18:34
阅读次数:
59
DW :data warehouse 翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSDWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中 ...
分类:
其他好文 时间:
2020-06-26 19:58:19
阅读次数:
65
一 collect_set函数,将某个字段形成一个数组 select course, collect_set(area), avg(score) from stud group by course; chinese ["sh","bj"] 79.0 math ["bj"] 93.5 还可以通过下标取 ...
分类:
其他好文 时间:
2020-06-26 18:05:16
阅读次数:
62
DWD(Data Warehouse Detail):数据明细层,结构和粒度与原始表保持一致,对ODS层数据进行清洗(取出空值、脏数据、超过极限范围的数据)。 DWD层的数据来源于ODS原始数据层,在原始数据层的Hive表里,只有一个字段,存储了原始的一条条日志信息,下面以事件(如商品点击事件,展示 ...
分类:
其他好文 时间:
2020-06-26 01:33:52
阅读次数:
262
ODS(Operational Data Store):原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 在ODS一般需要2个重要的步骤,示例如下: 1.建立ODS层的Hive表。 drop table if exists ods_start_log; CREATE EXTE ...
分类:
其他好文 时间:
2020-06-25 13:53:34
阅读次数:
192
UI: 用于提交查询的客户端,hive自带有CLI(command line),现在推荐使用beeline DRIVER: 1.用于接收客户端提交的SQL,并实现了session控制 2.并提供了jdbc/odbc的fetch和execute功能 COMPILER: 编译器,负责解析SQL,并从ME ...
分类:
其他好文 时间:
2020-06-25 11:40:51
阅读次数:
68
“今年将帮1000家企业‘去O‘,完成10000套传统数据仓库上云。”6月9日,阿里云数据库负责人李飞飞在2020阿里云峰会上表示,经过多年技术演进,“去O”已进入大规模攻坚阶段。
分类:
数据库 时间:
2020-06-24 16:28:01
阅读次数:
91
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 选择1.Hadoop平台应用, 淘宝双11数据分析与预测 理由:比较有兴趣 二、实践方案 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析 查看实验指南 步骤三 ...
分类:
其他好文 时间:
2020-06-23 17:11:36
阅读次数:
53
Oracle等传统数据库架构无法满足企业面临的业务挑战,电信、金融和政务等客户正在核心系统领域加速上云。基于这样的背景,6月9日,2020阿里云峰会,阿里巴巴副总裁、阿里云数据库负责人李飞飞提出,“今年要完成10000套传统数据仓库上云。”
分类:
数据库 时间:
2020-06-22 19:32:45
阅读次数:
126
1. 测试环境搭建步骤 为什么要安装tomcat、mysql? —所测试的项目需求环境决定。tomcat-项目容器(放置开发打包的项目代码),mysql-数据仓库。 为什么要安装jdk? —java软件开发包(Java Development Kit),没有JDK的话,无法编译运行Java程序。 1 ...
分类:
系统相关 时间:
2020-06-20 17:03:58
阅读次数:
96