一、背景 公司在用kettle做数据etl,每做完一个job或transformation发布上线想要立即执行看数据效果的话每次都是找运维同学登陆服务器打开kettle找到对应的文件点击执行,整个过程效率低下,不仅占用运维时间,期间自己也在白白等待,浪费生命。 google “kettle remo ...
分类:
Web程序 时间:
2017-01-25 12:39:00
阅读次数:
840
场景:假设有一张表数据量很大,需要按一个时间来循环增量抽取 方法:主要是通过JOB自身调用,实现循环调用,类似于 函数自调用 的循环。 1.JOB全图: 2.获取增量时间,并设置增量时间环境变量 3.通过增量环境变更,获取本次 增量数据 4.判断增量时间是否大于当前时间,判断是否继续执行一次的增量 ...
分类:
其他好文 时间:
2017-01-12 08:16:07
阅读次数:
315
1.设计一个增量 配置表ETL_INCREMENTAL,用于配置表的增量时间等数据 2.增量JOB全图如下: 2.1获取增量时间变量,并设置增量变量 2.2 表的增量转换,在表中引用2.1的增量变量 2.3 完成增量后,修改配置表ETL_INCREMENTAL ...
分类:
其他好文 时间:
2017-01-12 03:04:22
阅读次数:
193
一、 解压kettle包 1、把包拷到Linux系统下 还有mysql的驱动包 2、解压zip后缀的包 输入命令:unzip /software/pdi-ce-7.0.0.0-25.zip 可以把原来的包删了 输入命令:rm -f pdi-ce-7.0.0.0-25.zip 二、 创建数据库和表 三 ...
分类:
数据库 时间:
2017-01-11 15:58:40
阅读次数:
525
场景: 判断抽取的数据在目标库中是否已经存在(同一个病人是否已经存在治疗方案号): 1.若不存在,则GROUPROWNO=1,并Insert into 目标库 ( 判断外关联字段是否为空 ) 2.若已存在(同一个病人是否已经存在治疗方案号) ,则判断更新时间是否相同 2.1若抽取数据的创建时间、修改 ...
分类:
Web程序 时间:
2017-01-11 15:48:12
阅读次数:
2103
Kettle 官网 ETL利器Kettle实战应用解析系列 利用kettle组件导入excel文件到数据库 kettle中实现动态SQL查询 java中调用kettle转换文件 ...
分类:
其他好文 时间:
2017-01-10 19:35:08
阅读次数:
143
关于Jenkins的介绍我就不说了,自己百度,因为这个工具调用脚本只是他的功能的冰山一角,其他功能我也不能理解,因为不是那个领域。 下面我就介绍一下为什么我们需要一个调度平台,以及学习完jenkins后,能解决什么问题。然后在开始讲解安装部署,然后再讲一下怎么调用kettle作业(和处理作业依赖) ...
分类:
其他好文 时间:
2017-01-10 08:00:15
阅读次数:
258
导读 Excel数据导入Oracle数据库的方法: 1、使用PL SQL 工具附带的功能,效率比较低 可参考这篇文章的介绍:http://www.2cto.com/database/201212/176777.html 2、使用Kettle工具,免费,相比之下功能更丰富,可实现一定的业务逻辑,推荐使 ...
分类:
数据库 时间:
2016-12-31 00:18:47
阅读次数:
304
在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习 1、创建表 2、Kettle导入测试数据 对数据进行了处理 3、执行SQL查询数据 4、Pycharm中编写代码 用pandas模块进行连接MySQL数据库 numpy 模块进行创建数组 matplo ...
分类:
数据库 时间:
2016-12-30 01:30:18
阅读次数:
313
注:财务需要统计各产品品类各城市上周毛利情况 下面这样的表是沟通后展现的形式。数据展现形式我认为的大都是行列转 列转行的转置 从财务角度这样展现形式比较适合。 由于黄色部分为汇总项目,因此我拆分成9个转换步骤 类似纵向合并 只是汇总和各品类的字段不同无法纵向合并 因此用kettle时候汇总的各自成一 ...
分类:
数据库 时间:
2016-12-03 02:05:16
阅读次数:
234