一、基本概念 ETL,它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程,也是工作量最大的环节,一般会占到整个数据仓库建立的一半工作量。 建立一个数据仓库,就是要把来自多个异构的源系统的数据集成在一起,然后放置于一个集中的位置,用于数据分析。 二 ...
分类:
其他好文 时间:
2019-08-13 13:19:30
阅读次数:
69
上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库。学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展, ...
分类:
其他好文 时间:
2019-08-11 21:17:07
阅读次数:
111
GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重 ...
分类:
数据库 时间:
2019-08-11 16:52:53
阅读次数:
188
Teradata在整体上是按Shared Nothing 架构体系进行组织的,他的定位就是大型数据仓库系统,定位比较高,他的软硬件都是NCR自己的,其他的都不识别;所以一般的企业用不起,价格很贵。由于Teradata通常被用于OLAP应用,因此单机的Teradata系统很少见,即使是单机系统,Ter ...
分类:
数据库 时间:
2019-08-09 17:31:44
阅读次数:
102
一、Hive介绍 Apache官网给出的logo,一半是Hadoop大象的头,一半是蜜蜂的身体,也是寓意着它是基于Hadoop,哈哈,纯属个人理解,进入正题。 Hive是基于Hadoop的一个数据仓库工具,可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载(ETL),这 ...
分类:
其他好文 时间:
2019-08-07 23:02:06
阅读次数:
242
Hive 数据仓库,Hive 的本质其实就相当于将 HDFS 中已经存储的文件在Mysql中做了一个双射关系,以方便使用 HQL 去管理查询 用于数据分析、清洗,Hive 适用于离线的数据分析和清洗,延迟较高 基于 HDFS、MapReduce,Hive存储的数据依旧在DataNode上,编写的 H ...
分类:
其他好文 时间:
2019-08-05 14:23:06
阅读次数:
90
构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。 通常数据抽取工作分抽取、清洗、转换、 ...
分类:
其他好文 时间:
2019-08-05 13:47:31
阅读次数:
144
2、创建仓库 备份数据之前,要创建一个仓库来保存数据,仓库的类型支持Shared filesystem, Amazon S3, HDFS和Azure Cloud。下面以文件系统为例 3、备份索引 如果只想备份部分索引的话,可以加上indices 参数: 5 、查看备份信息 参考:https://ww ...
分类:
其他好文 时间:
2019-08-04 01:22:52
阅读次数:
111
一、数据仓库实施流程: 梳理指标体系: 根据公司实际指标体系,简单的做下总结 确定数据来源 如哪些业务系统,订单、商品、库存、供应商、合作商、采购、营建、资产、运营等系统。 确定各系统的数据体系 如现制商品数、外购商品数、等效商品数、客均商品数、响应时长、超时时长、外送时长、准时率等。 数据域划分 ...
分类:
其他好文 时间:
2019-08-01 21:28:34
阅读次数:
147
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各类技术。本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据学习者及应用
分类:
其他好文 时间:
2019-07-25 12:17:08
阅读次数:
106