依然在北京,早上停电了,整个人感觉对不好了,接下来就说一下在使用ETL工具kettle做数据校验的时候遇到的一些问题,一级解决方案.1:数据校验效果图下图:原始表数据(需要校验的表数据)对上表数据进行校验,校验规则,order_nane、order_type不为空,order_money2>orde...
分类:
其他好文 时间:
2015-03-11 12:46:21
阅读次数:
202
最近参与了一个信托行业的BI项目,由于信托业务系统设计的问题,很多都是用户手工录入的数据,也有一些是需要分析的但是用户没有录入的数据,针对这样的数据质量,我们就要在ETL抽取的过程中来对数据流进行校验,今天我们就说一下如何利用ETL开源工具kettle来完成对数据的基础性校验1:非空校验if(INT...
分类:
Web程序 时间:
2015-03-07 15:29:02
阅读次数:
229
在报表项目中,客户越来越关注源数据的实时性,希望看到最新发生的数据在报表中体现出来。但是,传统的报表工具+数据仓库+ETL方式很难做到这一点,往往是只能看到昨天、上周甚至是上个月的情况,也就是T+1、T+7、T+30统称T+n报表。很难实现T+0报表,也就是能体现实时信息的报表..
分类:
其他好文 时间:
2015-03-04 19:27:13
阅读次数:
160
本文转载自:http://blog.csdn.net/haojun186/article/details/79775651.HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoo...
分类:
其他好文 时间:
2015-03-02 18:11:16
阅读次数:
387
背景:
某日数据上报任务中,出现:“HTTP request sent, awaiting response... 404 Not Found”异常。
日志如下:
任务ID:xxx开始执行,执行命令:edw/etl/xx.py 125_yyyymmdd_done.txt wireless_order_deal_5min
--2015-02-27 08:56:09-- http://...
分类:
Web程序 时间:
2015-03-02 11:19:32
阅读次数:
1468
BI工具QLIKVIEW做ETL的常用方法:
1, 如何在QVD文件里加载特定的数据,即带上过滤条件的数据信息
ORGANZIATON:
LOAD
ORG_ID,
LOB,
ORG_NAME
FROM $(sPath)\ORGANIZATION.qvd(qvd)
Where
LOB='BDS';
2, 如何在QV里加载一组内部特定的数据信息...
分类:
其他好文 时间:
2015-02-28 21:38:17
阅读次数:
160
在报表项目中,报表源数据常常会来自于多种异构数据源。例如:关系型数据库(oracle、db2、mysql),nosql数据库(mongodb),http数据源,hadoop(hive、hdfs)甚至是excel或者文本文件。通常的做法是采用ETL工具,将这些数据源都同步到数据仓库中。但是这样做的问题在于:1、..
分类:
其他好文 时间:
2015-02-27 18:49:13
阅读次数:
245
开篇介绍今天在使用 QV 加载数据的时候会碰到列中的一些状态,信息是通过;或者 / 等符号分隔的,这样不利于做数据分析,因为字符串中的内容本身就是维度。上网搜了一下找到了解决的方法,记录一下。比如第一幅图中 S200,M250,R35 都是 Invoice 的类型,这时都需要取出来作为分析的维度 D...
分类:
其他好文 时间:
2015-02-27 16:29:41
阅读次数:
245
在最新版本的ODI中,通过使用各种知识模块,可在统一的界面上实现对传统数据库、hive, pig, spark, hdfs等的ETL操作,满足在同一系统或采用相同的方式实现ETL功能。详细的内容可参考:http://www.oracle.com/technetwork/database/bigdat...
分类:
数据库 时间:
2015-02-25 15:33:48
阅读次数:
140
大数据量表的维护原则 1.如果此表经常CRUD,最好的办法是定期收集统计信息传递给oracle优化器,提高性能。例如dbms_stats.gather_table_stats命令。 可以做在ETL中,定期执行。 2.考虑使用业务常用字段来进行分区,例如时间或地域等。以提高表查询的效率。 视图创建原则...
分类:
数据库 时间:
2015-02-19 10:44:46
阅读次数:
174