在项目组中做ETL开发时,经常会被问到:“现在ETL正在跑哪一个Package?” 为了缩短ETL运行的时间,在ETL的设计上,经常会使用并发执行模式:Task 并发执行,Package并发执行。对于Package 并发执行模式,实现方式是:在SSIS Server上部署Package Job,每个 ...
分类:
数据库 时间:
2016-09-02 14:40:38
阅读次数:
245
Kettle(中文名称叫水壶)是一款ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle家族包括4个产品:Spoon、Pan、CHEF、Kitchen。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里, ...
分类:
其他好文 时间:
2016-09-02 10:00:03
阅读次数:
150
1.通过作业加载测试数据:为了加载测试的数据,我们可以使用下面方法:在application启动时候,加载一个fixture文件。因此,我们创建Bootstrap作业。Play中的作业的概念是:不需要获得HTTP请求,而可以自己执行的任务。(类似ETL调度作业)。BasicTest.javaimportmodels.User;
..
分类:
其他好文 时间:
2016-08-30 23:09:51
阅读次数:
365
delete 操作不会改变表的高水标记,因此如果我们对一个表插入1000万条数据,然后再回滚(对insert操作做回滚相当于相应地做delete操作),会使表的高水标记增长得很高,这时虽然我们操作的表依然是一个空表,但是查询它却会读惊人数量的内存块,实验如下: ETL@RACTEST> create ...
分类:
其他好文 时间:
2016-08-28 12:38:16
阅读次数:
161
三、Impala OLAP实例 本节使用前面销售订单的例子说明如何使用Impala做OLAP类型的查询,以及实际遇到的问题及解决方案。为了处理SCD和行级更新,我们前面的ETL使用了Hi...
分类:
其他好文 时间:
2016-08-26 09:12:56
阅读次数:
263
LOOKUP TRANSFORMATION的使用点评: LOOKUP基本用法不熟的话请参考下附属信息。 用法感受: 1 LOOKUP的作用跟我们以前在EXCEL的函数功能类似,就是隔表取值。优点就是用ETL工具可以设置CACHE,大量的 数据也可以实现这个功能。数据量大的话要设置CACHE ENAB ...
分类:
其他好文 时间:
2016-08-24 17:25:25
阅读次数:
175
5W1H法来实现源数据的优化 做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。 5W : WHO ,WHAT,WHY,WHEN,WHERE WHO:(谁来对源数据负责) ETL抽取的数据各种各样,有些是按业务, ...
分类:
其他好文 时间:
2016-08-24 17:14:42
阅读次数:
144
Datawarehouse是一个不大的部门,当时里面有一个vp一个manager两个assistantmanager,其他就是seniordeveloper和basicdeveloper,当时还有将近20个人,属于花旗内部的员工大概就是4个人,其他都是外派,来自文思海辉、华钦、奥杰斯这几家。工作流程上,部门接收其他部门的数据..
分类:
其他好文 时间:
2016-08-18 14:45:41
阅读次数:
211
一、Hive定义:Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语..
分类:
其他好文 时间:
2016-08-16 22:14:33
阅读次数:
159
1、ETL的定义 ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。 ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数 ...
分类:
其他好文 时间:
2016-08-14 15:59:36
阅读次数:
181