搜索关键字：数据仓库，搜索到1540个结果！码迷,mamicode.com！

浅谈数据仓库的ETL

一、基本概念 ETL，它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程，也是工作量最大的环节，一般会占到整个数据仓库建立的一半工作量。建立一个数据仓库，就是要把来自多个异构的源系统的数据集成在一起，然后放置于一个集中的位置，用于数据分析。二 ...

分类：其他好文时间：2019-08-13 13:19:30 阅读次数：69

数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库，从本周开始我们开始一起学习数据仓库。学习数据仓库，你一定会了解到两个人：数据仓库之父比尔·恩门（Bill Inmon）和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展， ...

分类：其他好文时间：2019-08-11 21:17:07 阅读次数：111

Greenplum/PostgreSQL中数据表数据去重的几种方法

GP主要用于数据仓库领域，在GP数据库中，如果由于ETL重复跑数导致数据重复的话，就需要进行去重复操作。一种方法是把某一时间段的数据全部删掉，然后重新跑数据，这样其实工作量也比较大，需要补数据，重跑ETL。另一种方法就是把重复的数据删掉就行，本文就是针对Greenplum分布式数据库如何进行去重 ...

分类：数据库时间：2019-08-11 16:52:53 阅读次数：188

Teradata 数据库介绍

Teradata在整体上是按Shared Nothing 架构体系进行组织的，他的定位就是大型数据仓库系统，定位比较高，他的软硬件都是NCR自己的，其他的都不识别；所以一般的企业用不起，价格很贵。由于Teradata通常被用于OLAP应用，因此单机的Teradata系统很少见，即使是单机系统，Ter ...

分类：数据库时间：2019-08-09 17:31:44 阅读次数：102

Hive的学习之路（理论篇）

一、Hive介绍 Apache官网给出的logo，一半是Hadoop大象的头，一半是蜜蜂的身体，也是寓意着它是基于Hadoop，哈哈，纯属个人理解，进入正题。 Hive是基于Hadoop的一个数据仓库工具，可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载（ETL），这 ...

分类：其他好文时间：2019-08-07 23:02:06 阅读次数：242

Hive 和 HBase 区别

Hive 数据仓库，Hive 的本质其实就相当于将 HDFS 中已经存储的文件在Mysql中做了一个双射关系，以方便使用 HQL 去管理查询用于数据分析、清洗，Hive 适用于离线的数据分析和清洗，延迟较高基于 HDFS、MapReduce，Hive存储的数据依旧在DataNode上，编写的 H ...

分类：其他好文时间：2019-08-05 14:23:06 阅读次数：90

如何才能让数仓构建成本降低80%，维护成本降低70%？

构建数据仓库的核心是建模，在数据仓库的构建中，ETL贯穿于项目始终，它是整个数据仓库的生命线。从数据源中抽取数据，然后对这些数据进行转化，最终加载到目标数据库或者数据仓库中去，这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。通常数据抽取工作分抽取、清洗、转换、 ...

分类：其他好文时间：2019-08-05 13:47:31 阅读次数：144

elasticsearch的备份和恢复（转）

2、创建仓库备份数据之前，要创建一个仓库来保存数据，仓库的类型支持Shared filesystem, Amazon S3, HDFS和Azure Cloud。下面以文件系统为例 3、备份索引如果只想备份部分索引的话，可以加上indices 参数： 5 、查看备份信息参考：https://ww ...

分类：其他好文时间：2019-08-04 01:22:52 阅读次数：111

数据仓库之建设流程

一、数据仓库实施流程：梳理指标体系：根据公司实际指标体系，简单的做下总结确定数据来源如哪些业务系统，订单、商品、库存、供应商、合作商、采购、营建、资产、运营等系统。确定各系统的数据体系如现制商品数、外购商品数、等效商品数、客均商品数、响应时长、超时时长、外送时长、准时率等。数据域划分 ...

分类：其他好文时间：2019-08-01 21:28:34 阅读次数：147

大数据平台最常用的30款开源工具

大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据仓库工具无法处理完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的各类技术。本文整理出了大数据平台常见的一些开源工具，并且依据其主要功能进行分类，以便大数据学习者及应用

分类：其他好文时间：2019-07-25 12:17:08 阅读次数：106

共1540条上一页 1 ... 23 24 25 26 27 ... 154 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)