开篇介绍Execute SQL Task 这个控件在微软BI ETL 项目中使用的频率还是非常高的,也是大部分入门 SSIS 初学者最早接触到的几个控制流控件。我们通常使用 Execute SQL Task 的场景包含但不止于以下几类:在从源端加载数据到 Staging 表之前使用 Execute ...
分类:
数据库 时间:
2014-09-04 18:58:09
阅读次数:
267
kettle 进阶教程 非常实用的etl学习教程...
分类:
其他好文 时间:
2014-09-04 08:27:37
阅读次数:
249
物联网的开源工具
原文地址:Open Source Tools for the Internet of Things
物联网开源正在快速发展。开源的物联网软件和硬件项目可以帮助企业和DIY爱好者通过网络连接设备进行实验。
如果你近几年由于某些原因涉猎到IT行业,那么你很有可能听过“物联网”这个词。据高德纳公司所说,物联网正如日中天,很多人都对它有兴趣,但对于物联网来说,还没有太多实质...
分类:
其他好文 时间:
2014-09-02 01:36:14
阅读次数:
485
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:
其他好文 时间:
2014-09-01 22:32:33
阅读次数:
347
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具。今天安装之后觉得Scrapy的安装确实不易啊。所以在此博文一篇,往后来着少走弯路。 废话不多说了,如果你还不知道Scrapy是何物,可登陆在其官网http://scrapy.org/一览究竟,在此不再赘述。 ...
分类:
编程语言 时间:
2014-09-01 15:21:13
阅读次数:
405
好久好久没有写博客了,发现再不写博客我都快忘了我有这个博客了!好了,不说废话了。最近项目使用kettle的地方比较多,鉴于项目优化的思考决定使用jndi来为kettle脚本设置数据源。这样不仅可以控制连接数,而且可以减少大量的数据库配置,那么我们怎么样才能实现在Web项目中调..
分类:
其他好文 时间:
2014-08-31 10:35:01
阅读次数:
251
做数据仓库的头两年,使用高配置单机 + MySQL的方式来实现所有的计算(包括数据的ETL,以及报表计算。没有OLAP)。用过MySQL自带的MYISAM和列存储引擎Infobright。这篇文章总结了自己和团队在那段时间碰到的一些常...
分类:
数据库 时间:
2014-08-30 02:28:49
阅读次数:
365
1.?????CDC简介 1.1.????????CDC是一种数据增量处理技术 ???在构建数据仓库系统的ETL过程中,增量数据的抽取是一个非常关键的环节.对解决方案一般有两点要求: l??准确性,能够将业务系统中的数据...
分类:
数据库 时间:
2014-08-29 14:47:38
阅读次数:
389