数据预处理的目的:提高数据质量,数据质量的三要素:准确性、完整性、一致性。 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理——填充缺失的值、光滑噪声、识别离群点、纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类...
分类:
其他好文 时间:
2015-03-12 00:57:10
阅读次数:
143
最近工作中,涉及到的一些解决方案,发现引入消息队列会更好更优雅地解决问题。业务场景:用户新装修的店铺发布后,需要相关系统做一些对应的工作:缓存系统做数据清理,通知依赖的第三方系统...当前解决方案:店铺发布系统异步编码实现相关逻辑;现实问题:1、采用第三方系统提供接口供店铺系统发送通知:店铺系统需要...
分类:
其他好文 时间:
2015-03-11 07:02:21
阅读次数:
506
本文目的 最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken)。感觉需要记录点什么,才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用。 为什么选择Spark 原因如下 代码复用:使用Sca...
分类:
其他好文 时间:
2015-03-07 21:09:45
阅读次数:
281
做个笔记,记录streaming任务执行的整个流程,下文使用的源码是master分支的代码,1.2.1版本已经发布,应该和1.2.1差别不大1、streaming程序是从StreamingContext.start()开始的,做一个必要的参数检查然后启动jobschedulerStreamingContext.scaladefstart():Unit=synchronized..
分类:
其他好文 时间:
2015-03-06 19:18:24
阅读次数:
322
SSIS Catalog Database 可以管理很多的包,并且查询每个包的执行状态都很方便。但是如果其中包含的包太多,而且包的执行频次很高, 所产生的日志就是一个灾难了。SSIS目录服务打开之后靠自带的作业“SSIS Server Maintenance Job”来清理包的执行 日志,清理的标准...
分类:
数据库 时间:
2015-03-04 12:30:06
阅读次数:
780
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间,...
分类:
其他好文 时间:
2015-03-03 16:51:30
阅读次数:
209
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版...
分类:
其他好文 时间:
2015-03-03 15:11:59
阅读次数:
269
./configure \--prefix=/usr/local/nginx \--sbin-path=/usr/local/nginx/sbin/nginx \--conf-path=/usr/local/nginx/conf/nginx.conf \--error-log-path=/usr/l...
分类:
其他好文 时间:
2015-03-03 14:57:29
阅读次数:
1048
原文地址:http://www.adobe.com/cn/devnet/flashmediaserver/articles/multicast_streaming_osmf.html使用OSMF实现实时多播流处理在本文中,将借助Adobe Flash Media Live Encoder、Adobe...
分类:
其他好文 时间:
2015-02-22 23:01:30
阅读次数:
309
基于流的数据读写,太抽象了,什么叫基于流,什么是流?Hadoop是Java语言写的,所以想理解好Hadoop的Streaming Data Access,还得从Java流机制入手。流机制也是JAVA及C++中的一个重要的机制,通过流使我们能够自由地操作包括文件,内存,IO设备等等中的数据。首先,流是...
分类:
编程语言 时间:
2015-02-22 19:35:17
阅读次数:
247