一、关于数据融合和企业数据融合平台数据融合是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。企业数据融合平台,通常的表现形态为运行着大量数据同步和转换任务的分布式系统。其源端一般为各类偏实时的业务数据存储系统,目的端为各类数据仓库/对象存储。二、企业数据融合平台的典型架构下图为数据融合平台的典型架构,源端是不同的数据存储系统,另一端是各种类型的数据仓库,关
目前在做的数据产品都是基于数据仓库上实现,主要的应用方式包括固定报表、数据查询、数据挖掘等。 在知识类相关的数据分析产品中,通常需要对多个业务系统的数据进行集成,更需要对数据分层进行科学的规划。 为什么分层 我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细 ...
分类:
其他好文 时间:
2019-04-27 09:52:06
阅读次数:
126
1. 简单一点的模型,事实表 , 维度表 事实表:具有连贯数据编号的业务型数据,例如:发生的销售事实,才放入的数据,不要用0去表示,因为会有很多0 需要处理 维度表:维度表通常不满足第3范式,它通常非规范化,一个维度表往往存储在多对一的关系,和事实表相比较维度表要小很多,所有在存储来说,不怎么占空间 ...
分类:
其他好文 时间:
2019-04-24 14:49:06
阅读次数:
119
在本地新建项目的目录中打开Git Bash命令行工具 运行以下命令,设置全局信息(包括用户名,邮箱地址) git config --global user.name "你的姓名" git config --global user.email "xxx@163.com" 创建本地数据仓库,执行以下命令 ...
分类:
其他好文 时间:
2019-04-24 14:44:49
阅读次数:
155
1 简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用, ...
分类:
系统相关 时间:
2019-04-23 15:47:11
阅读次数:
174
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集 ...
分类:
其他好文 时间:
2019-04-23 15:39:37
阅读次数:
163
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 ...
分类:
其他好文 时间:
2019-04-21 20:02:52
阅读次数:
280
1、缘由 在总结了前面几篇的心得之后,朋友叫我给大家分享一下实例,能够更直观的了解到建模,于是自己动手做了简单的订单系统。 2、mysql表 假设mysql中存在下面的八张表: 3、ods ods层和源数据最好保持一致: 4、dwd ①对ODS层数据进行判空过滤。 ②更改压缩算法和文件存储格式 ③对 ...
分类:
其他好文 时间:
2019-04-20 12:52:16
阅读次数:
647
一,Data Vault模型有几个主要的组件,这里先总结一下: 1.Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号、客户编号、车辆号等。 表内包括几个关键字段:代理主键(Surrorgate Key),即hub表的主键;业务实体主键(Business Key) ...
分类:
其他好文 时间:
2019-04-19 18:04:35
阅读次数:
320
编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆,对非互联网、互联网,从数据平台的用户角度、数据架构演进、模型等进行了阐述。 前言,本篇幅将进入大家熟知的互联网时代,数据平 ...
分类:
其他好文 时间:
2019-04-11 14:32:55
阅读次数:
129