aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) 但是为什么没有执行comb呢? sortByKey([ascending], [numTasks]) sortBy(func,[ascending], [numTasks]) join(othe ...
分类:
其他好文 时间:
2016-09-03 13:34:11
阅读次数:
248
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型。 1)输入分区与输出分区一对一型。 2)输入分区与输出分区多对一型。 3)输入分区与输出分区多对多型。 4)输出分区为输入分区子集型。 5)还有一种特殊的输入与输出分区一对一的 ...
分类:
其他好文 时间:
2016-09-02 19:00:56
阅读次数:
215
map(func) 将原RDD中的每一个元素经过func函数映射为一个新的元素形成一个新的RDD。 示例: 其中sc.parallelize第二个参数标识RDD的分区数量 filter(func) def filter(f: T => Boolean): RDD[T] 原RDD中通过func函数结果 ...
分类:
其他好文 时间:
2016-09-01 21:24:24
阅读次数:
242
版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化 ...
分类:
其他好文 时间:
2016-08-24 19:17:57
阅读次数:
629
Spark简介 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 在Spark中,通过RDD(Resilient Distributed Dataset,弹性分布式数据集)来进行计算,这些分布式集合,并行的 ...
分类:
其他好文 时间:
2016-08-08 23:58:59
阅读次数:
474
前传第15课:Scala类型参数编程实战及Spark源码鉴赏 本課課程: Spark源码中的Scala类型系統的使用 classOf[RDD[_]] 這個也是类型系統 這里的意思是說 B 這種類型必需至少是 A 這樣類型 Ordering Scala类型系統编程操作实战 作為類型系統最大的就可以對類 ...
分类:
其他好文 时间:
2016-08-08 19:27:43
阅读次数:
156
本課課程: Spark源码中的Scala的 implicit 的使用 這個東西意義非常重大,RDD 本身沒有所謂的 Key, Value,只不過是自己本身解讀的時候把它變成 Key Value 的方法去解讀,RDD 本身就是一個 Record。 RDD 本身沒有 reduceByKey,它是用了隐式 ...
分类:
其他好文 时间:
2016-08-08 18:50:58
阅读次数:
123
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念 在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个execu ...
分类:
其他好文 时间:
2016-08-06 00:33:06
阅读次数:
431
前言 用Spark有一段时间了,但是感觉还是停留在表面,对于Spark的RDD的理解还是停留在概念上,即只知道它是个弹性分布式数据集,其他的一概不知 有点略显惭愧。下面记录下我对RDD的新的理解。 官方介绍 弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和 ...
分类:
其他好文 时间:
2016-08-03 20:16:28
阅读次数:
153
异常检测原理是根据训练数据的高斯分布,计算均值和方差,若测试数据样本点带入高斯公式计算的概率低于某个阈值(0.1),判定为异常点。 1 创建数据集转化工具类,把csv数据集转化为RDD数据结构 2 创建异常检测工具类,主要是预测是否为异常点 3异常检测模型类 4 包括启动异常检测模型,优化参数,输出 ...
分类:
编程语言 时间:
2016-08-03 10:28:21
阅读次数:
2231