码迷,mamicode.com
首页 >  
搜索关键字:ETL    ( 2204个结果
Kettle中根据一个输入行派生出多个输出行
依然在北京,早上停电了,整个人感觉对不好了,接下来就说一下在使用ETL工具kettle做数据校验的时候遇到的一些问题,一级解决方案.1:数据校验效果图下图:原始表数据(需要校验的表数据)对上表数据进行校验,校验规则,order_nane、order_type不为空,order_money2>orde...
分类:其他好文   时间:2015-03-11 12:46:21    阅读次数:202
利用kettle中的JS来完成ETL数据校验
最近参与了一个信托行业的BI项目,由于信托业务系统设计的问题,很多都是用户手工录入的数据,也有一些是需要分析的但是用户没有录入的数据,针对这样的数据质量,我们就要在ETL抽取的过程中来对数据流进行校验,今天我们就说一下如何利用ETL开源工具kettle来完成对数据的基础性校验1:非空校验if(INT...
分类:Web程序   时间:2015-03-07 15:29:02    阅读次数:229
润乾集算报表优化应用结构之实现T+0实时报表
在报表项目中,客户越来越关注源数据的实时性,希望看到最新发生的数据在报表中体现出来。但是,传统的报表工具+数据仓库+ETL方式很难做到这一点,往往是只能看到昨天、上周甚至是上个月的情况,也就是T+1、T+7、T+30统称T+n报表。很难实现T+0报表,也就是能体现实时信息的报表..
分类:其他好文   时间:2015-03-04 19:27:13    阅读次数:160
Hive学习笔记【转载】
本文转载自:http://blog.csdn.net/haojun186/article/details/79775651.HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoo...
分类:其他好文   时间:2015-03-02 18:11:16    阅读次数:387
HTTP request sent, awaiting response... 404 Not Found
背景: 某日数据上报任务中,出现:“HTTP request sent, awaiting response... 404 Not Found”异常。 日志如下: 任务ID:xxx开始执行,执行命令:edw/etl/xx.py 125_yyyymmdd_done.txt wireless_order_deal_5min  --2015-02-27 08:56:09-- http://...
分类:Web程序   时间:2015-03-02 11:19:32    阅读次数:1468
QlikView处理数据
BI工具QLIKVIEW做ETL的常用方法: 1, 如何在QVD文件里加载特定的数据,即带上过滤条件的数据信息 ORGANZIATON: LOAD ORG_ID,      LOB,      ORG_NAME FROM $(sPath)\ORGANIZATION.qvd(qvd) Where LOB='BDS';   2, 如何在QV里加载一组内部特定的数据信息...
分类:其他好文   时间:2015-02-28 21:38:17    阅读次数:160
润乾集算报表优化应用结构之混合数据源
在报表项目中,报表源数据常常会来自于多种异构数据源。例如:关系型数据库(oracle、db2、mysql),nosql数据库(mongodb),http数据源,hadoop(hive、hdfs)甚至是excel或者文本文件。通常的做法是采用ETL工具,将这些数据源都同步到数据仓库中。但是这样做的问题在于:1、..
分类:其他好文   时间:2015-02-27 18:49:13    阅读次数:245
QlikView ETL - 分隔字符串的方法 SubField
开篇介绍今天在使用 QV 加载数据的时候会碰到列中的一些状态,信息是通过;或者 / 等符号分隔的,这样不利于做数据分析,因为字符串中的内容本身就是维度。上网搜了一下找到了解决的方法,记录一下。比如第一幅图中 S200,M250,R35 都是 Invoice 的类型,这时都需要取出来作为分析的维度 D...
分类:其他好文   时间:2015-02-27 16:29:41    阅读次数:245
oracle data integrator与大数据平台的集成
在最新版本的ODI中,通过使用各种知识模块,可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作,满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考:http://www.oracle.com/technetwork/database/bigdat...
分类:数据库   时间:2015-02-25 15:33:48    阅读次数:140
Oracle 性能维护一点
大数据量表的维护原则 1.如果此表经常CRUD,最好的办法是定期收集统计信息传递给oracle优化器,提高性能。例如dbms_stats.gather_table_stats命令。 可以做在ETL中,定期执行。 2.考虑使用业务常用字段来进行分区,例如时间或地域等。以提高表查询的效率。 视图创建原则...
分类:数据库   时间:2015-02-19 10:44:46    阅读次数:174
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!