码迷,mamicode.com
首页 >  
搜索关键字:ETL    ( 2204个结果
八步学会数据迁移:ETL工具kettle使用方法
一、目的 将不同服务器上的表合并到另外一个服务器上。例如:将服务器1上的表A和服务器2上的表B,合并到服务器3上的表C 要求:表A需要被裁剪(去掉不必要的字段)、表B需要增加一些字段 二、使用方法 (1)在服务器3上的数据库中新建一张表C(符合实际系统设计的字段) (2)新建表输入,连接服务器1,通...
分类:其他好文   时间:2015-05-10 22:08:31    阅读次数:619
hive优化---增加减少map数量
如何合并小文件,减少map数?假设一个SQL任务:Selectcount(1)frompopt_tbaccountcopy_meswherept=‘2012-07-04’;该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是远远小于128m的小文件,总大小9G,正常..
分类:其他好文   时间:2015-05-05 16:48:39    阅读次数:123
hive优化之增加减少map数量
如何合并小文件,减少map数? 假设一个SQL任务: Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’; 该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04 共有194个文件,其中很多是远...
分类:其他好文   时间:2015-05-05 16:36:33    阅读次数:248
kettle入门(四) 之kettle中取任意时间变量的使用详细案例
数据仓库中ETL工具 kettle中取任意时间变量的使用,最灵活的时间变量取值、格式...
分类:其他好文   时间:2015-04-28 21:09:40    阅读次数:184
Spark及其应用场景初探
最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
分类:其他好文   时间:2015-04-24 00:48:02    阅读次数:142
SSIS导出日期结尾的Excel文件
在使用ETL工具定期导出Excel格式的数据文档时,有时会要求导出的文件名称要以当天的日期或时间结尾,用以区分或归档。 微软的SSIS也能实现这样的要求,以下是实现过程。               以上步骤实现了导出的Excel文件名以当天日期结尾的效果,但是由于该文件是动态生成的,事先没有建立,所以运行时会出现数据流不知道字段映射到哪里的问题。 因此还需要在...
分类:其他好文   时间:2015-04-22 22:15:37    阅读次数:327
HIVE与mysql的关系
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年...
分类:数据库   时间:2015-04-22 18:53:13    阅读次数:247
客户视角:Oracle ETL工具ODI
数据集成已成为企业在追求市场份额中的关键技术组件,与依靠手工编码的方式不同,越来越多的企业选择完整的数据集成解决方案来支持其IT战略,从大数据分析到云平台的集成。Dao Research最近进行的一项研究,比较全球领先的几个数据集成解决方案之间的差异,及这些产品技术对现实企业的影响。他们采访了IBM...
分类:数据库   时间:2015-04-21 20:28:47    阅读次数:155
使用ETL控件还是存储过程
在实际的项目过程中,我们会碰见许多需要在几个解决方案中作出权衡的情况,其中的一个权衡就是:对于数据的清洗、加载,我们是应该主要使用ETL控件还是主要使用存储过程而ETL只是作为调用存储过程的工具。使用ETL控件的好处是:数据处理过程可视化,比较容易理解减少数据库的压力,把数据处理的压力转移到ETL服...
分类:其他好文   时间:2015-04-21 20:12:15    阅读次数:151
Hive学习笔记
Hive是基于Hadoop文件系统上的数据仓库架构。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序它为数据仓库的管理提供了许多功能: 数据ETL(抽取,转换和加载)工具 数据存储管理 大型数据...
分类:其他好文   时间:2015-04-18 11:29:26    阅读次数:153
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!