码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark RDD Transformation 简单用例(二)
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) 但是为什么没有执行comb呢? sortByKey([ascending], [numTasks]) sortBy(func,[ascending], [numTasks]) join(othe ...
分类:其他好文   时间:2016-09-03 13:34:11    阅读次数:248
Spark RDD Operations(2)
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型。 1)输入分区与输出分区一对一型。 2)输入分区与输出分区多对一型。 3)输入分区与输出分区多对多型。 4)输出分区为输入分区子集型。 5)还有一种特殊的输入与输出分区一对一的 ...
分类:其他好文   时间:2016-09-02 19:00:56    阅读次数:215
Spark RDD Transformation 简单用例(一)
map(func) 将原RDD中的每一个元素经过func函数映射为一个新的元素形成一个新的RDD。 示例: 其中sc.parallelize第二个参数标识RDD的分区数量 filter(func) def filter(f: T => Boolean): RDD[T] 原RDD中通过func函数结果 ...
分类:其他好文   时间:2016-09-01 21:24:24    阅读次数:242
Spark RDD、DataFrame和DataSet的区别
版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化 ...
分类:其他好文   时间:2016-08-24 19:17:57    阅读次数:629
RDD机制实现模型Spark初识
Spark简介 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 在Spark中,通过RDD(Resilient Distributed Dataset,弹性分布式数据集)来进行计算,这些分布式集合,并行的 ...
分类:其他好文   时间:2016-08-08 23:58:59    阅读次数:474
大数据Spark蘑菇云前传第15课:Scala类型参数编程实战及Spark源码鉴赏(学习笔记)
前传第15课:Scala类型参数编程实战及Spark源码鉴赏 本課課程: Spark源码中的Scala类型系統的使用 classOf[RDD[_]] 這個也是类型系統 這里的意思是說 B 這種類型必需至少是 A 這樣類型 Ordering Scala类型系統编程操作实战 作為類型系統最大的就可以對類 ...
分类:其他好文   时间:2016-08-08 19:27:43    阅读次数:156
大数据Spark蘑菇云前传第16课:Scala implicits编程彻底实战及Spark源码鉴赏(学习笔记)
本課課程: Spark源码中的Scala的 implicit 的使用 這個東西意義非常重大,RDD 本身沒有所謂的 Key, Value,只不過是自己本身解讀的時候把它變成 Key Value 的方法去解讀,RDD 本身就是一個 Record。 RDD 本身沒有 reduceByKey,它是用了隐式 ...
分类:其他好文   时间:2016-08-08 18:50:58    阅读次数:123
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念 在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个execu ...
分类:其他好文   时间:2016-08-06 00:33:06    阅读次数:431
Spark RDD到底是个什么东西
前言 用Spark有一段时间了,但是感觉还是停留在表面,对于Spark的RDD的理解还是停留在概念上,即只知道它是个弹性分布式数据集,其他的一概不知 有点略显惭愧。下面记录下我对RDD的新的理解。 官方介绍 弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和 ...
分类:其他好文   时间:2016-08-03 20:16:28    阅读次数:153
Spark实战3:异常检测算法Scala语言
异常检测原理是根据训练数据的高斯分布,计算均值和方差,若测试数据样本点带入高斯公式计算的概率低于某个阈值(0.1),判定为异常点。 1 创建数据集转化工具类,把csv数据集转化为RDD数据结构 2 创建异常检测工具类,主要是预测是否为异常点 3异常检测模型类 4 包括启动异常检测模型,优化参数,输出 ...
分类:编程语言   时间:2016-08-03 10:28:21    阅读次数:2231
1327条   上一页 1 ... 96 97 98 99 100 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!