摘要:什么是数据湖?它有什么作用?今天将由华为云技术专家从理论出发,将问题抽丝剥茧,从技术维度娓娓道来。 什么是数据湖 如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 数据湖从企业的多个数据源获取原始数据,并且针对 ...
分类:
其他好文 时间:
2020-06-15 11:51:53
阅读次数:
76
1. Mapreduces适用于:可以并行处理的应用程序 2. PageRank是一个函数,它对Web中的每一个网页赋予一个实数值,它的意图在于网页的PageRank越高,那么它就:越重要 3. 在Bigtable中,GFS主要用来存储子表数据以及一些日志文件 4. 当不知道数据所带标签时,可以使用 ...
分类:
其他好文 时间:
2020-06-14 20:15:50
阅读次数:
229
先说结论:有了 BI 还要做报表,报表必不可少! 为什么? 广义上的 BI 是包括数据仓库、多维分析、报表和可视化技术的一整套解决方案,而我们常说的 BI 则专指多维分析,也就是自助查询。建设 BI 往往是希望将简单、临时、多变的查询需求开放给业务人员自助完成,从而提高用户需求的响应速度,减轻 IT ...
分类:
其他好文 时间:
2020-06-11 21:19:27
阅读次数:
63
基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。
分类:
其他好文 时间:
2020-06-11 11:57:12
阅读次数:
93
为什么要查询表数据量 在做数据仓库管理时,数据导入hive或向表生成数据后形成的数据资产,表里的数据量和占用存储空间是总要的元数据属性。为方便数据使用时对数据有基本的了解,需要对表的数据量做统计。 使用 analyze table 主动生成元数据信息 analyze table tableName ...
分类:
其他好文 时间:
2020-06-05 13:27:53
阅读次数:
669
一、ODS层ODS 全称是 Operational Data Store,一般对应的是操作性数据存储,直接面向主题的,也叫数据运营层,通常是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就是通常说的 ETL 之后的数据存入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而 ...
分类:
其他好文 时间:
2020-06-04 14:09:23
阅读次数:
125
ETL(数据仓库技术) ETL,数据仓库技术,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL是将业务系统的数据经过抽 ...
分类:
其他好文 时间:
2020-05-31 16:06:21
阅读次数:
68
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:
其他好文 时间:
2020-05-30 19:36:05
阅读次数:
56
为了将数据仓库设计过程中excel中设计的物理模型高效转换成标准的Hive建表语句,我用 python开发了如下的工具 createDdlSql.py: 功能:实现将excel中的物理模型转换成建表语句文件 输入:当前目录文件名为“数据模型.xls”或“数据模型.xlsx”的excel,模型结尾必须 ...
分类:
其他好文 时间:
2020-05-30 14:13:29
阅读次数:
155
前言 一个简单的理解:把SQL的一些操作应用在hadoop的HDFS上面。 数据库与数据仓库 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分 ...
分类:
其他好文 时间:
2020-05-28 23:08:21
阅读次数:
62