搜索关键字：数据仓库，搜索到1540个结果！码迷,mamicode.com！

DataPipeline丨新型企业数据融合平台的探索与实践

一、关于数据融合和企业数据融合平台数据融合是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。企业数据融合平台，通常的表现形态为运行着大量数据同步和转换任务的分布式系统。其源端一般为各类偏实时的业务数据存储系统，目的端为各类数据仓库/对象存储。二、企业数据融合平台的典型架构下图为数据融合平台的典型架构，源端是不同的数据存储系统，另一端是各种类型的数据仓库，关

分类：Windows程序时间：2019-04-29 17:15:25 阅读次数：182

费元星-关于百度在数据仓库-层级架构上的思考

目前在做的数据产品都是基于数据仓库上实现，主要的应用方式包括固定报表、数据查询、数据挖掘等。在知识类相关的数据分析产品中，通常需要对多个业务系统的数据进行集成，更需要对数据分层进行科学的规划。为什么分层我们对数据进行分层的一个主要原因就是希望在管理数据的时候，能对数据有一个更加清晰的掌控，详细 ...

分类：其他好文时间：2019-04-27 09:52:06 阅读次数：126

20190424 数据仓库维度建模（一）

1. 简单一点的模型，事实表，维度表事实表：具有连贯数据编号的业务型数据，例如：发生的销售事实，才放入的数据，不要用0去表示，因为会有很多0 需要处理维度表：维度表通常不满足第3范式，它通常非规范化，一个维度表往往存储在多对一的关系，和事实表相比较维度表要小很多，所有在存储来说，不怎么占空间 ...

分类：其他好文时间：2019-04-24 14:49:06 阅读次数：119

新增项目到GIT仓库中

在本地新建项目的目录中打开Git Bash命令行工具运行以下命令，设置全局信息(包括用户名，邮箱地址) git config --global user.name "你的姓名" git config --global user.email "xxx@163.com" 创建本地数据仓库，执行以下命令 ...

分类：其他好文时间：2019-04-24 14:44:49 阅读次数：155

macOS下Hive 2.x的安装与配置

1 简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用， ...

分类：系统相关时间：2019-04-23 15:47:11 阅读次数：174

大数据学习教程：五大核心技术有哪些？

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集 ...

分类：其他好文时间：2019-04-23 15:39:37 阅读次数：163

hive小文件合并设置参数

Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个 ...

分类：其他好文时间：2019-04-21 20:02:52 阅读次数：280

05-数据仓库之建模实例

1、缘由在总结了前面几篇的心得之后，朋友叫我给大家分享一下实例，能够更直观的了解到建模，于是自己动手做了简单的订单系统。 2、mysql表假设mysql中存在下面的八张表： 3、ods ods层和源数据最好保持一致： 4、dwd ①对ODS层数据进行判空过滤。 ②更改压缩算法和文件存储格式 ③对 ...

分类：其他好文时间：2019-04-20 12:52:16 阅读次数：647

数据仓库之Data Vault模型总结

一，Data Vault模型有几个主要的组件，这里先总结一下： 1.Hub组件，是一个数据表，用于记录在业务应用中常用到的业务实体键值，如员工ID，发票号、客户编号、车辆号等。表内包括几个关键字段：代理主键（Surrorgate Key），即hub表的主键；业务实体主键（Business Key） ...

分类：其他好文时间：2019-04-19 18:04:35 阅读次数：320

(转)我所经历的大数据平台发展史（三）：互联网时代 ? 上篇

编者按：本文是松子（李博源）的大数据平台发展史系列文章的第二篇（共四篇），本系列以独特的视角，比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆，对非互联网、互联网，从数据平台的用户角度、数据架构演进、模型等进行了阐述。前言，本篇幅将进入大家熟知的互联网时代，数据平 ...

分类：其他好文时间：2019-04-11 14:32:55 阅读次数：129

共1540条上一页 1 ... 28 29 30 31 32 ... 154 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)