SSIS是从MS SQL 2005开始引入的,实际上是DTS的马甲,是SQL Server Integration Service的缩写。DTS也好,SSIS也罢,都是ETL(Extract Transform Load)工具,一般用来导入数据到数据库。SSIS比普通的ETL更进一步,它是可视化的,
分类:
其他好文 时间:
2016-02-29 21:36:29
阅读次数:
1263
在hadoop开发或者使用中,可能会使用到一些插件或3方软件,比如:Eclipse的Hadoop插件,ETL的Kettle。那么就存在一个hdfs目录权限的问题。 下面就这个权限问题进行阐述。
分类:
其他好文 时间:
2016-02-29 12:15:03
阅读次数:
152
文章翻译自:《BRISK: Binary Robust Invariant Scalable Keypoints》Stefan Leutenegger, Margarita Chli etl.
BRISK 摘要:从一幅图片中高效地寻找关键点始终是一个深入研究的话题,以此形成了众多的计算机视觉应用的基础。正在这个领域中,先驱算法SIFT和SURF在各种图形转换中表现出了巨大的性能,特别是SURF在日益更新的高性能方法中被认为是计算最有效的方法。本文提出的BRISK算法是用于关键点检测,描述和匹配的一种新方法。...
分类:
其他好文 时间:
2016-02-24 19:34:46
阅读次数:
592
Pentaho Data Integration(kettle):一个优秀的抽取、转换、加载(Extract Transform and Load,ETL)工具 Pentaho Report Server:一个强大的报告引擎 PgAdmin3:一个极好的数据库管理工具 php5-postgresql
分类:
数据库 时间:
2016-02-19 09:07:33
阅读次数:
218
这几天突发想到在ETL中Merge性能的问题。思路的出发点是Merge到目标表需要扫描的数据太多,而现实情况下,假设应该是只有一小部分会被更新,而且这部分数据也应该是比较新的数据,比方说对于想FactOrders这样一张表,一些越日期越久远的订单可能不可能被更新。那么整个思路就是减小每次需要从磁盘加
分类:
数据库 时间:
2016-02-18 22:52:00
阅读次数:
404
parallel job shell调用:dsjob ./dsjob -run -mode NORMAL -paramfile xxx.param ETL Job开发流程 1. 用 DataStage Administrator 新建一个项目; 2. 用 DataStage Designer 连接到...
分类:
其他好文 时间:
2016-02-17 12:33:14
阅读次数:
170
公司希望也开发一套多维分析系统,以解决运营/产品无休止的需求和技术人力不足的矛盾! 一、开发选型: 一、BIRT:易用性差,所以没再使用 二、JasperReport+ireport:文档收费,不支持ETL工具 三、Pentaho:在中国比较普及,文档多,报表是其中的一部分,比如数据同步和ETL也都
分类:
其他好文 时间:
2016-02-06 14:16:11
阅读次数:
188
公司希望也开发一套多维分析系统,以解决运营/产品无休止的需求和技术人力不足的矛盾! 开发选型: 一、BIRT:易用性差,所以没再使用 二、JasperReport+ireport:文档收费,不支持ETL工具 三、Pentaho:在中国比较普及,文档多,报表是其中的一部分,比如数据同步和ETL也都有
分类:
其他好文 时间:
2016-02-05 19:08:18
阅读次数:
501
1、熟悉linux操作,包括常见的命令2、了解学习vmware的一些高级的使用场景3、做了一年的基于rdms数据仓库的开发、ETL工具的开发,彻底了解CUBE的计算过程,同时与分布式里面的hive、kylin原理的理解4、安装使用分布式计算引擎、包括hadoop、spark、storm、kakfa、...
分类:
其他好文 时间:
2016-01-26 08:06:42
阅读次数:
150
刚做完一个项目接触到了etl接口,趁还热乎做个总结。etl接口功能测试点总结:1、数据量的检查:目标表与源表数据量是否一致2、字段正确性:拉取源表字段是否为目标表所需要字段(会出现拉错字段情况)3、字段值转换正确性:如日期或数值字段拉取到目标表后是否需要做转换,如需要做转换,那转换是否正确,且是否符...
分类:
其他好文 时间:
2016-01-25 19:32:06
阅读次数:
326