由于开发新的系统,需要将之前一个老的C/S应用的数据按照新的数据设计导入到新库中。此过程可能涉及到表结构不一致、大数据量(千万级,甚至上亿)等情况,包括异构数据的抽取、清洗等等工作。部分复杂的工作需要我们的DBA写代码用程序在JDBC或者Delphi中解决,而大部分稍简单的数据的迁移需要一个强大的E ...
分类:
其他好文 时间:
2016-05-31 15:38:16
阅读次数:
759
作者:Grey 原文地址: http://www.cnblogs.com/greyzeng/p/5524614.html 需求: 将Oracle数据库中某张表历史数据导入MySQL的一张表里面。 源表(Oracle):table1 目标表(MySQL):table2 数据量:20,000,000 思 ...
分类:
其他好文 时间:
2016-05-24 20:51:39
阅读次数:
238
kettle使用命令行来运行ktr和kjb 1:cmd方式运行 1.ktr的运行:运行transformation文件是通过Pan.bat来运行的。 打开cmd命令行窗口,转到Pan.bat所在的目录,如d:\data-integration,然后执行文件的命令为:pan /file D:\etlt ...
分类:
其他好文 时间:
2016-05-20 11:30:11
阅读次数:
134
今天遇到了一个问题:不同的数据库之间需要用全连接,于是毫不犹豫的Merge Join插件,但是在使用的过程中遇到了很多问题。 解决方法:把需要关联的字段改为不相同的名字。 2. 获取的数据不是我们想要的数据: 例如: A表: 1 a 2 b B表: 1 的 3 地方 全连接预想效果: 1 a 的 2 ...
分类:
其他好文 时间:
2016-05-19 19:18:55
阅读次数:
1277
一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:
其他好文 时间:
2016-05-09 15:50:35
阅读次数:
170
ETL工具断断续续的也接触了 Informatica,Kettle, SSIS,个人感觉Info很强大但是也很贵,而且有着一些神秘感。Kettle 4.0版本以来已经有了User defined java class组件,使用户可以写Java代码 让kettle来调用,这就说明了很多kettle不能 ...
分类:
编程语言 时间:
2016-05-04 15:46:47
阅读次数:
890
kettle(pentaho data integration),是一款开源的C/S版的ETL工具,最近打算学习一下kettle源码,并自己写一个mini kettle,并改造成基于事件触发的流处理模型,前端欲支持桌面版和Web版。 首先,首要的工作是将kettle工程构建起来,达到能边跑看调试来观 ...
分类:
其他好文 时间:
2016-05-02 00:34:52
阅读次数:
236
使用kettle调用存储过程,传入参数传出参数。存储过程的内容如下,主要是传入一个表名字和一个数字类型的返回值。那么能得到表的行数。CreateOrReplaceProcedurep_Emp_Cnt(tInVarchar2,NumOutNumber)Is
v_SqlVarchar2(600);
Lv_CntNumber;
Begin
SelectCount(*)
IntoLv_Cnt
Fro..
分类:
数据库 时间:
2016-04-23 07:47:41
阅读次数:
978
利用kettle组件导入excel文件到数据库 1. 实现目标 把excel文件内容导入到目标表中;然后用java调用kettle的转换。excel文件的内容仅仅有两列,示比例如以下: 数据库表的结构例如以下: 2. 设计分析 使用oracle函数解决上图黄色行的字段:两个uuid和两个系统日期; ...
分类:
数据库 时间:
2016-04-15 21:44:25
阅读次数:
2147