目录RDD概述RDD实现RDD运行流程RDD分区RDD操作分类RDD编程接口说明一、RDD概述RDD:是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类DAG:Spark将计算转换为一个有向无环图(DAG)的任务集合,通过为RD... ...
分类:
其他好文 时间:
2020-01-08 14:43:26
阅读次数:
102
大数据由一系列技术组成,那他们之间的关系是怎么组成的ne,请看下图: hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案 hive是在mr和文件存储系统上面做的升级。 sprak+hbase+hadoop主要解决的是hadoop实时处理数据比较弱的问题 ...
分类:
Web程序 时间:
2019-12-08 10:27:19
阅读次数:
116
一、求top值 二、求最大最小值 三、文件排序 四、二次排序 五、连接操作 ...
分类:
其他好文 时间:
2019-11-09 17:50:20
阅读次数:
76
第 5 章 RDD 编程进阶 5.1 累加器 累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者 用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会 得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应 ...
分类:
其他好文 时间:
2019-07-07 22:44:37
阅读次数:
303
第1章 RDD 概念1.1 RDD 为什么会产生1.2 RDD 概述1.2.1 什么是 RDD1.2.2 RDD 的属性1.3 RDD 弹性1.4 RDD 特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 CheckPoint第2章 RDD 编程2.1 RDD 编程模型 ...
分类:
其他好文 时间:
2019-04-27 00:38:29
阅读次数:
508
注意:spark的编码格式是utf-8,其他的格式会有乱码,所以文件要使用utf-8编码 pom.xml: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns: ...
分类:
其他好文 时间:
2019-03-12 21:16:14
阅读次数:
207
## 02、体验Spark shell下RDD编程 ### 1、Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集。该类是Spark是核心类成员之一,是贯穿Spark编程的始终。初期阶段,我们可以把RDD看成是Java中的集合就可以... ...
分类:
其他好文 时间:
2018-08-27 21:39:47
阅读次数:
129
spark core之RDD编程包括:五大特性、创建RDD、RDD操作(转化操作、行动操作、缓存)、容错机制。
分类:
其他好文 时间:
2018-08-24 00:38:21
阅读次数:
186
用惯了python或者R语言的DataFrame格式,对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件 读取本地文件之后,一般都是转换成Row类型RDD,方便后续操作;同时RDD转成DataFrame前, ...
分类:
其他好文 时间:
2018-07-20 20:10:29
阅读次数:
210
RDD,即弹性分布式数据集,也就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD支持两种类型的操作:转化操作和行动操作。转换操作会由一个RDD生 ...
分类:
其他好文 时间:
2018-03-28 12:25:42
阅读次数:
155