搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

aggregateByKey 这个RDD有点繁琐，整理一下使用示例，供参考直接上代码输出结果说明：参考代码及下面的说明进行理解官网的说明源码中函数的说明 ...

分类：其他好文时间：2016-10-28 03:38:08 阅读次数：370

从 RDD间的依赖关系说起，依赖分为宽依赖和窄依赖。所谓窄依赖就是说子RDD中的每个分区（partition）只依赖于父RDD中固定的partition。在API中解释如下：而宽依赖指的是子RDD的每一个partition都依赖于父 RDD中的所有partition(未必所有父RDD中的part ...

分类：其他好文时间：2016-10-26 13:52:37 阅读次数：267

Spark Transformations

We all know the following fact: 1, RDD are immutable 2, Never modify RDD in place 3, Transform RDD to another RDD There are 2 different transformation ...

分类：其他好文时间：2016-10-23 20:16:56 阅读次数：206

《OD学Spark》20161022

一、Spark Streaming 1. 什么是Spark Shuffle Wide Dependencies *ByKey： groupByKey,reduceByKey 关联操作：join，cogroup 窄依赖：父RDD的每个分区的数据，仅仅只会给子RDD的一个分区。 Spark性能优化： ...

分类：其他好文时间：2016-10-22 14:31:48 阅读次数：270

通过一系列破坏行为加深对spark RDD 的理解（或者是猜测）（python 版）

这个实验由一个实验案例产生，实验中，需要对一个数据集进行维护，其中有一个需要对数据一条条进行插入：下面是最二的写法：每次插入数据，新建一个rdd，然后union。后果是： java.lang.OutOfMemoryError: GC overhead limit exceeded at org ...

分类：编程语言时间：2016-10-19 02:53:10 阅读次数：347

Spark RDD 核心总结

如何表示这样一个分区的，高效容错的而且能够持久化的分布式数据集呢？一般情况下抽象的RDD包含如下5大接口。 1)partition : 分区属性: 每个RDD包好多个分区, 这既是RDD的数据单位, 也是计算粒度, 每个分区在由一个Task线程处理. 在RDD创建的时候可以指定分区的个数, ... ...

分类：其他好文时间：2016-10-13 19:33:38 阅读次数：174

spark高级排序彻底解秘

排序，真的非常重要！ RDD.scala（源码）在其，没有罗列排序，不是说它不重要！ 1、基础排序算法实战 2、二次排序算法实战 3、更高级别排序算法 4、更高级别排序算法 1、基础排序算法实战启动hdfs集群 spark@SparkSingleNode:/usr/local/hadoop/ha ...

分类：编程语言时间：2016-09-30 01:17:28 阅读次数：325

rdd案例（join、cogroup、reducebykey、groupbykey等）

典型的transformation和action ...

分类：其他好文时间：2016-09-27 19:38:14 阅读次数：152

RDD.scala（源码）

map、 flatMap、fliter、distinct、repartition、coalesce、sample、randomSplit、randomSampleWithRange、takeSample、union、++、sortBy、intersection map源码 fliter源码 coal ...

分类：其他好文时间：2016-09-27 13:33:07 阅读次数：257

Spark弹性分布式数据集RDD概述

弹性分布数据集RDD RDD(Resilient Distributed Dataset)是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对 ...

分类：其他好文时间：2016-09-25 13:06:53 阅读次数：167

共1327条上一页 1 ... 93 94 95 96 97 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)