码迷,mamicode.com
首页 >  
搜索关键字:ETL    ( 2204个结果
kettle入门(七) 之kettle增量方案(一)全量比对取增量-根据唯一标示
kettle的转换ktr里有一个图元叫做合并记录可以把数据记录分为源和目的根据唯一标示 进行全量比对,...
分类:其他好文   时间:2015-08-01 15:43:45    阅读次数:194
(转)Hive SQL的编译过程
本文来着美团 :http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。H...
分类:数据库   时间:2015-07-30 22:59:55    阅读次数:208
kettle(一)概述
最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的比较少,kettle的集群模式没有涉及到等等。          说起kettle,还是先说说ETL(Extract-Transform-load,即抽取,转换,加载)数据仓库技术,是用来...
分类:其他好文   时间:2015-07-26 00:33:28    阅读次数:289
Oracle快速导出数据文件
数据文件生成方式有多种,但是大多效率低下,对于大型数据仓库来说,高效导出文件是迫切需求: 这里通过shell+java的方式集成老熊写的数据文件生成工具,效率比普通的导出方法高70%: shell文件生成脚本: {CSDN:CODE:762627} Java调用脚本:这里implement Callable接口,实现了多线程的调用方式: /** * @Title:...
分类:数据库   时间:2015-07-19 11:57:14    阅读次数:254
profile_oracle设置某用户密码永不过期
原创作品,出自 “深蓝的blog” 博客,深蓝的blog:   oracle设置某用户密码永不过期   为ETL_TEST用户设置密码永不过期。 select  *  from  dba_users  where  username = 'ETL_TEST'; 查看dba_users字典,可知道ETL_TEST用户到2015年11月23日到期。 select  username, u...
分类:数据库   时间:2015-07-15 09:27:09    阅读次数:161
Hive简述及几种访问方式
what is hive? Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据的提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言,称为 HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu...
分类:其他好文   时间:2015-07-13 18:44:28    阅读次数:287
pig询问top k,每个返回hour和ad_network_id最大的两个记录(SUBSTRING,order,COUNT_STAR,limit)
pig里面有一个TOP功能。我不知道为什么用不了。有时间去看看pig源代码。SET job.name 'top_k';SET job.priority HIGH;--REGISTER piggybank.jar;REGISTER wizad-etl-udf-0.1.jar;--DEFINE Sequ...
分类:Web程序   时间:2015-07-08 14:30:14    阅读次数:137
数据仓库之ETL漫谈
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)ETL贯穿其各个环节。?一、数据抽取: 可以理解为是把源数据的数据抽取到O...
分类:其他好文   时间:2015-07-08 00:13:54    阅读次数:222
What is the difference between Full load and Incremental load
In most OBIA projects we create both incremental and full load mappings for each tables in Date Warehouse target. Below you can find the difference between both. Full Load is the entire data dump...
分类:其他好文   时间:2015-07-07 17:09:26    阅读次数:161
Kettle定时执行(ETL工具)【转】
1,Kettle跨平台使用。例如:在AIX下(AIX是IBM商用UNIX操作系统,此处在LINUX/UNIX同样适用),运行Kettle的相关步骤如下:1)进入到Kettle部署的路径2)执行 chmod *.sh,将所有shell文件添加可执行权限3)在Kettle路径下,如果要执行transfo...
分类:其他好文   时间:2015-07-03 18:51:50    阅读次数:143
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!