aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考 直接上代码 输出结果说明: 参考代码及下面的说明进行理解 官网的说明 源码中函数的说明 ...
分类:
其他好文 时间:
2016-10-28 03:38:08
阅读次数:
370
从 RDD间的依赖关系说起,依赖分为宽依赖和窄依赖。 所谓窄依赖就是说子RDD中的每个分区(partition)只依赖于父RDD中固定的partition。在API中解释如下: 而宽依赖指的是子RDD的每一个partition都依赖于父 RDD中的所有partition(未必所有父RDD中的part ...
分类:
其他好文 时间:
2016-10-26 13:52:37
阅读次数:
267
We all know the following fact: 1, RDD are immutable 2, Never modify RDD in place 3, Transform RDD to another RDD There are 2 different transformation ...
分类:
其他好文 时间:
2016-10-23 20:16:56
阅读次数:
206
一、Spark Streaming 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup 窄依赖: 父RDD的每个分区的数据,仅仅只会给子RDD的一个分区。 Spark性能优化: ...
分类:
其他好文 时间:
2016-10-22 14:31:48
阅读次数:
270
这个实验由一个实验案例产生,实验中,需要对一个数据集进行维护,其中有一个需要对数据一条条进行插入: 下面是最二的写法: 每次插入数据,新建一个rdd,然后union。 后果是: java.lang.OutOfMemoryError: GC overhead limit exceeded at org ...
分类:
编程语言 时间:
2016-10-19 02:53:10
阅读次数:
347
如何表示这样一个分区的,高效容错的而且能够持久化的分布式数据集呢?一般情况下抽象的RDD包含如下5大接口。 1)partition : 分区属性: 每个RDD包好多个分区, 这既是RDD的数据单位, 也是计算粒度, 每个分区在由一个Task线程处理. 在RDD创建的时候可以指定分区的个数, ... ...
分类:
其他好文 时间:
2016-10-13 19:33:38
阅读次数:
174
排序,真的非常重要! RDD.scala(源码) 在其,没有罗列排序,不是说它不重要! 1、基础排序算法实战 2、二次排序算法实战 3、更高级别排序算法 4、更高级别排序算法 1、基础排序算法实战 启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/ha ...
分类:
编程语言 时间:
2016-09-30 01:17:28
阅读次数:
325
典型的transformation和action ...
分类:
其他好文 时间:
2016-09-27 19:38:14
阅读次数:
152
map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal ...
分类:
其他好文 时间:
2016-09-27 13:33:07
阅读次数:
257
弹性分布数据集RDD RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对 ...
分类:
其他好文 时间:
2016-09-25 13:06:53
阅读次数:
167