Hawk-数据抓取工具:简明教程 Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,快速地进行生成,过滤,转换等操 ...
分类:
其他好文 时间:
2016-05-03 20:27:59
阅读次数:
829
集团内的业务数据以前是采用 地区采集—集团清洗-分发地区的ETL流程,自从集团成立软件公司以后,子公司需要的业务数据都必须向集团申请而来,但是业务系统底层DC也没提供相应的数据接口,所以就有了这次需求原型:从远程FTP服务器上定时获取txt数据文件,并将数据导入到本地Oracle数据库。 每天需要从 ...
分类:
数据库 时间:
2016-05-03 17:47:05
阅读次数:
245
kettle(pentaho data integration),是一款开源的C/S版的ETL工具,最近打算学习一下kettle源码,并自己写一个mini kettle,并改造成基于事件触发的流处理模型,前端欲支持桌面版和Web版。 首先,首要的工作是将kettle工程构建起来,达到能边跑看调试来观 ...
分类:
其他好文 时间:
2016-05-02 00:34:52
阅读次数:
236
Spark 数据ETL
说明
1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。
2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。
3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。
数据处理以及转化
1、...
分类:
其他好文 时间:
2016-04-29 16:52:29
阅读次数:
231
再来说下数据集成开发过程,批处理数据集成和ETL
数据集成生命周期
1 确定项目的范围
2 概要分析
生命周期的第二个部分常常会被忽略,即概要分析。因为数据集成被视作一门技术活,而组织通常会对授权
访问生产数据比较敏感,因此,为了开发数据接口而对当前存储于可能的源和目标系统的数据进行分析可能是件
比较困难的事情。所以,对实际数据进行概要分析往往...
分类:
其他好文 时间:
2016-04-29 15:53:09
阅读次数:
218
Spark 数据ETL
说明
1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。
2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。
3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。
数据处理以及转化
1、...
分类:
其他好文 时间:
2016-04-26 02:14:09
阅读次数:
481
查询谁在操作这个表 SELECT T.SQL_TEXT, H.OSUSER, h.logon_time FROM V$SQL T, V$SESSION H WHERE H.SQL_ID = T.SQL_ID and t.sql_text like '%HCPMS_BI_ETL_JOB%' -- 查看 ...
分类:
其他好文 时间:
2016-04-23 10:27:20
阅读次数:
183
使用kettle调用存储过程,传入参数传出参数。存储过程的内容如下,主要是传入一个表名字和一个数字类型的返回值。那么能得到表的行数。CreateOrReplaceProcedurep_Emp_Cnt(tInVarchar2,NumOutNumber)Is
v_SqlVarchar2(600);
Lv_CntNumber;
Begin
SelectCount(*)
IntoLv_Cnt
Fro..
分类:
数据库 时间:
2016-04-23 07:47:41
阅读次数:
978
在这部分将按照设计和实现ETL系统的流程展开,将上一个部分的那些子系统按照提取数据、清洗和一致化、向呈现服务器提交以及管理ETL环境等四个方面进行了分类。(是不是说对ETL主要就是掌握这四个方面的内容) ETL处理步骤 提取数据 清洗和一致化 向呈现层提交 管理ETL环境 计划 创建一个高层的、单页... ...
分类:
其他好文 时间:
2016-04-21 21:57:37
阅读次数:
163
ETL系统的主要任务是在提交阶段传递维度表和事实表。 交付子系统是ETL架构中的中枢子系统。维度表是数据仓库的心脏,它们为事实表提供了上下文。 维度表是进入事实表的入口。 子系统9——缓慢变化维管理器 ETL中最重要的要素之一是实现缓慢变化维度(SCD)逻辑。 数据仓库得知某一维度中一个已有的行发生... ...
分类:
其他好文 时间:
2016-04-21 20:32:25
阅读次数:
169