搜索关键字：ETL，搜索到2204个结果！码迷,mamicode.com！

抽取、转换和装载介绍（七）管理ETL环境（待续）

数据仓库的目标之一是能够为增强业务功能提供适时的、一致的和可靠的数据。为了达到上述目标，ETL必须按照下述三条标准不断地加以完善：可靠性可用性易管理性子系统22——作业调度器子系统23——备份系统子系统24——恢复和重启系统子系统25——版本控制系统子系统27——工作流监视器子系... ...

分类：其他好文时间：2016-04-21 20:28:55 阅读次数：142

抽取、转换和装载介绍（五）抽取数据

抽取和提交数据虽然也很重要，但是只是传输和装载数据而已。数据的清洗和归一化是ETL系统为数据增值的步骤，实际上改变了数据。子系统4——数据清洗系统主要用于修正脏数据，同时又希望数据仓库提供该数据的准确描述。数据清洗的目标之一是提供一个用于数据清洗的综合架构，捕捉与数据质量相关的事件，同时在数... ...

分类：其他好文时间：2016-04-21 20:17:39 阅读次数：147

hadoop使用场景

大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache ...

分类：其他好文时间：2016-04-18 11:23:50 阅读次数：129

Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区 ...

分类：数据库时间：2016-04-15 11:43:18 阅读次数：244

IBM InfoSphere DataStage 8.1 DataStage Job 开发详解

简介 DataStage 使用了 Client-Server 架构，服务器端存储所有的项目和元数据，客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境，用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。Datastage 的可运行单元是 Datastage Job ，用户在 Designer 中对 Datastage Job 的进行设计和开发。D...

分类：其他好文时间：2016-04-12 17:30:44 阅读次数：269

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

ETL是什么？为什么要使用ETL？KETTLE是什么？为什么要学KETTLE？ ETL是数据的抽取清洗转换加载的过程，是数据进入数据仓库进行大数据分析的载入过程，目前流行的数据进入仓库的过程有两种形式，一种是进入数据库后再进行清洗和转换，另外一条路线是首先进行清洗转换再进入数据库，我们的ETL属于后 ...

分类：其他好文时间：2016-04-12 07:19:16 阅读次数：1190

抽取、转换和装载介绍（三）ETL系统的34个子系统

这部分对ETL系统的架构中34个关键子系统进行分类。ETL其实可以分为下面四个步骤：抽取。在ETL环境中从源系统收集原始数据并且在对任何对数据的重要重构发生之前都将数据写入磁盘。子系统1到子系统3都支持抽取过程。清洗和一致化。提高了从源系统接收数据的质量，并且对两个或者多个源系统中的数据进行了合... ...

分类：其他好文时间：2016-04-11 10:09:43 阅读次数：323

抽取、转换和装载介绍（二）归拢需求

没怎么搞过实际项目，但是也觉得需求分析确实是很重要的。在进行数据的ETL时，归拢需求很关键，涉及到收集并整理所有已知的需求、实际情况和影响ETL系统的约束。关于ETL系统设计和开发有一下几个方面的需求。 1、业务需求这里业务需求很直接，就是DW/BI系统用户的信息需求，后面的过程需要那些数据，我... ...

分类：其他好文时间：2016-04-11 10:05:24 阅读次数：222

oracle数据库登录连接很慢；kettle连接oracle 报 IO 错误，socket time out 问题解决记录

问题描述： 1：oracle数据库连接登陆时突然变得很慢；sqldeveloper链接数据库很慢； 2：Kettle-spoon etl程序访问数据库,任务执行时报：数据库连接 IO错误：Socket Time Out 错误。解决： 1：lsnrctl status 用命令查看oracle监听 ...

分类：数据库时间：2016-04-09 18:57:44 阅读次数：2105

ETL之增量抽取方式

1、触发器方式触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求，在要被抽取的源表上建立插入、修改、删除3个触发器，每当源表中的数据发生变化，就被相应的触发器将变化的数据写入一个增量日志表，ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据，同时增量日志表中抽取过的数据要及时被 ...

分类：其他好文时间：2016-04-09 10:37:40 阅读次数：207

共2204条上一页 1 ... 191 192 193 194 195 ... 221 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)