ETL工具完成的差不多了,今天遇到一个问题,就是给C3P0配置了maxPoolSize为10,目的是想让整个应用同时获得的最大的Connection个数为10,但是在测试应用的这一部分之后,发现PostgreSQL端的链接远远超过10个。因为工具是多线程的,所以就想,是不是多线程的问题,查了一下Connection的个数,也确实是10*线程个数。于是做了一个测试:
将maxPoolSize配置为...
分类:
编程语言 时间:
2014-10-26 11:43:26
阅读次数:
213
增量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。目前...
分类:
其他好文 时间:
2014-10-26 01:36:07
阅读次数:
147
前言任务调度是指基于给定时间点,给定时间间隔或者给定执行次数自动执行任务。本文由浅入深介绍四种任务调度的 Java 实现:TimerScheduledExecutor开源工具包 Quartz开源工具包 JCronTab此外,为结合实现复杂的任务调度,本文还将介绍 Calendar 的一些使用方法。回...
分类:
编程语言 时间:
2014-10-25 18:40:07
阅读次数:
262
举例说明kettle中javascript步骤的错误处理功能。...
分类:
编程语言 时间:
2014-10-23 09:32:42
阅读次数:
327
Key words: merge compare columnswhen we contact merge sql in ETL,When we update some columns we should compare the value change or not.We always write...
分类:
其他好文 时间:
2014-10-22 14:24:51
阅读次数:
160
现在docker在云计算领域发展的势头很猛,各个公司不论大小都开始研究这个开源工具和技术,围绕docker的开源项目和创业公司也多如牛毛,就是一个简单管理container的web ui都有很多开源项目。不过还是一个人说的好,docker必须要是集群才好玩,而且越大越好玩。当然这是从玩技术的...
分类:
其他好文 时间:
2014-10-21 21:11:00
阅读次数:
191
这几天协作实施人员做BI的项目。项目的开发已经接近尾声,后期的工作主要就是定义指标以及定义多维分析模型以及ETL的过程。下面具体把这次的工作总结一下:环境: 系统: ERP,HIS以及其他的子系统-------主要是业务数据以及一些数据字典(SQLServer2005) BI系统---...
分类:
其他好文 时间:
2014-10-17 23:17:55
阅读次数:
859
详细介绍kettle位置参数、命名参数、变量之间的区别及用法...
分类:
其他好文 时间:
2014-10-17 18:56:17
阅读次数:
338
kettle作为ETL工具,其功能日趋完善,已得到广大数据挖掘爱好者的青睐。又因为他是java开源项目,为适应项目需求,有必要研究其源码,最好能够集成到Java项目中,作为项目运行流程的一个重要环节来使用。...
分类:
编程语言 时间:
2014-10-16 20:51:23
阅读次数:
299
最近要实现一个根据词语得到词语对应拼音的功能,找到了Jpinyin这个开源工具包,使用下来发现它非常强大,完全满足我的需求,下面对它做一个简单的介绍,希望能够帮助到有需要的朋友。
一、项目介绍:
JPinyin是一个汉字转拼音的Java开源类库,在PinYin4j的功能基础上做了一些改进。
【JPinyin主要特性】
1、准确、完善的字库;...
分类:
其他好文 时间:
2014-10-14 18:55:39
阅读次数:
165