码迷,mamicode.com
首页 >  
搜索关键字:kettle 开源工具 etl    ( 3189个结果
[转载]运维自动化201009
运维趋势 第 0 期 运维自动化【人物】基于开源服务的运维自动化实现【国际前沿】什么是 DevOps ? 【运维漫画阁】正则表达式有什么用?【命令行 & 工具】面向 Linux 系统管理员的开源工具链【命令行 & 工具】自动化开源工具一览 【实战】 Kickstart 无人值守安装搭建 RHCE 实...
分类:其他好文   时间:2014-07-16 20:36:16    阅读次数:329
[转载]运维自动化201009
运维趋势 第 0 期 运维自动化【人物】基于开源服务的运维自动化实现【国际前沿】什么是 DevOps ? 【运维漫画阁】正则表达式有什么用?【命令行 & 工具】面向 Linux 系统管理员的开源工具链【命令行 & 工具】自动化开源工具一览 【实战】 Kickstart 无人值守安装搭建 RHCE 实...
分类:其他好文   时间:2014-07-16 20:30:17    阅读次数:227
【第二天】用kettle向hdfs复制文件
http://blog.csdn.net/greatelite/article/details/18676281遇到的问题:在连接到hdfs服务器上,一直提示unable to connect to HDFS Server解决过程中:①网上找了各种说是jar包驱动不兼容,端口号不对,最后都没解决②最...
分类:其他好文   时间:2014-07-13 00:38:07    阅读次数:632
ETL技术入门之ETL初认识
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求...
分类:其他好文   时间:2014-07-12 21:46:17    阅读次数:221
用一个MapReduce job实现去重,多目录输出功能
总结之前工作中遇到的一个问题。 背景: 运维用scribe从apache服务器推送过来的日志有重复记录,所以这边的ETL处理要去重,还有个需求是要按业务类型多目录输出,方便挂分区,后面的使用。 这两个需求单独处理都没有问题,但要在一个mapreduce里完成,需要一点技巧。 1、map输入数据,经过一系列处理,输出时: if(ttype.equals("other"))...
分类:其他好文   时间:2014-07-11 00:20:13    阅读次数:226
VO对象通过groovy模板映射XML文件
最近研究了一个开源工具包org.codehaus.groovy,处理VO对象和XML文件的映射方便。简言之:将VO对象中的属性(包括Collection, Map),通过groovy模板文件,映射XML文件。...
分类:其他好文   时间:2014-07-10 22:48:20    阅读次数:391
检测乳腺癌细胞中的有丝分裂(4)
文章题目是《Learning-based mitotic cell detection in histopathological images》 原理:分为个步骤,第一,分割出候选有丝分裂细胞;第二,利用纹理等特征检测出有丝分裂细胞。 这篇文章读起来挺简单的,都是我们所熟悉的,本文使用了两个开源工具,”ilastik”和”CellCognition” 。 1、分割出候选有丝分裂细胞 一个基...
分类:其他好文   时间:2014-07-08 14:52:28    阅读次数:239
BI开发(ETL-DW)
来到公司已经参与开发了一段时间的BI项目,但是仅仅是按照需求开发,今天下午公司给大家培训数据仓库的知识,老大(女程序员)在上面讲,我们在下面听,2到3个小时吧,什么纬度,主题,几乎听的一脸茫然,最后演示了基于BI的成本分析系统,感觉好复杂,主要是对于医疗项目的业务,反正挺繁琐的。做这个项目的目的主要...
分类:其他好文   时间:2014-07-06 17:24:53    阅读次数:193
Kettle笔记: Transformation 笔记
触发器表输入:selecta.*,b.*,0asztflagfromexchange_triggeraleftjoinMAEA_NET_BIZ_BASEINFObon(a.keyvalue=b.id)wherea.flag=0anda.tablename=‘MAEA_NET_BIZ_BASEINFO‘附件处理脚本://Scriptherevarbyte_FILEDATA=null;if(FILEDATA!=null&&FILEDATA!=‘‘){varbb=newP..
分类:其他好文   时间:2014-07-04 06:17:57    阅读次数:279
kettle中denormalizer(列转行)的使用
需要列转行的数据分为两种:有主键和无主键,先说无主键的转以前的内容转以后的内容看到了吧,转过来了,好来张整体流程图开始分析:第一个图标打开后为这是第一步里面主要的一步,这里配置好了就可以进行第二步了。因为没有主键,所以要给城市那一列添加一个相同的主键,这样..
分类:其他好文   时间:2014-07-04 00:59:23    阅读次数:267
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!