数据仓库的目标之一是能够为增强业务功能提供适时的、一致的和可靠的数据。 为了达到上述目标,ETL必须按照下述三条标准不断地加以完善: 可靠性 可用性 易管理性 子系统22——作业调度器 子系统23——备份系统 子系统24——恢复和重启系统 子系统25——版本控制系统 子系统27——工作流监视器 子系... ...
分类:
其他好文 时间:
2016-04-21 20:28:55
阅读次数:
142
抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。 数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。 子系统4——数据清洗系统 主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。 数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数... ...
分类:
其他好文 时间:
2016-04-21 20:17:39
阅读次数:
147
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache ...
分类:
其他好文 时间:
2016-04-18 11:23:50
阅读次数:
129
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 ...
分类:
数据库 时间:
2016-04-15 11:43:18
阅读次数:
244
简介
DataStage 使用了 Client-Server 架构,服务器端存储所有的项目和元数据,客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。Datastage 的可运行单元是 Datastage Job ,用户在 Designer 中对 Datastage Job 的进行设计和开发。D...
分类:
其他好文 时间:
2016-04-12 17:30:44
阅读次数:
269
ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE? ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后 ...
分类:
其他好文 时间:
2016-04-12 07:19:16
阅读次数:
1190
这部分对ETL系统的架构中34个关键子系统进行分类。ETL其实可以分为下面四个步骤: 抽取。在ETL环境中从源系统收集原始数据并且在对任何对数据的重要重构发生之前都将数据写入磁盘。子系统1到子系统3都支持抽取过程。 清洗和一致化。提高了从源系统接收数据的质量,并且对两个或者多个源系统中的数据进行了合... ...
分类:
其他好文 时间:
2016-04-11 10:09:43
阅读次数:
323
没怎么搞过实际项目,但是也觉得需求分析确实是很重要的。在进行数据的ETL时,归拢需求很关键,涉及到收集并整理所有已知的需求、实际情况和影响ETL系统的约束。 关于ETL系统设计和开发有一下几个方面的需求。 1、业务需求 这里业务需求很直接,就是DW/BI系统用户的信息需求,后面的过程需要那些数据,我... ...
分类:
其他好文 时间:
2016-04-11 10:05:24
阅读次数:
222
问题描述: 1:oracle数据库连接登陆时突然变得很慢;sqldeveloper链接数据库很慢; 2:Kettle-spoon etl程序访问数据库,任务执行时报 :数据库连接 IO错误 :Socket Time Out 错误。 解决: 1:lsnrctl status 用命令查看oracle监听 ...
分类:
数据库 时间:
2016-04-09 18:57:44
阅读次数:
2105
1、触发器方式 触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据,同时增量日志表中抽取过的数据要及时被 ...
分类:
其他好文 时间:
2016-04-09 10:37:40
阅读次数:
207