一、Spark-RDD算子简介 二、RDD创建 例子: 三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio ...
分类:
其他好文 时间:
2019-01-13 20:27:15
阅读次数:
240
一、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作 ...
分类:
其他好文 时间:
2019-01-13 01:58:56
阅读次数:
233
通过一个经典的程序来说明 从RDD的转换和存储角度看这个过程: 用户程序对RDD通过多个函数进行操作,将RDD进行转换。 Block-Manager管理RDD的物理分区,每个Block就是节点上对应的一个数据块,可以存储在内存或者磁盘。 而RDD中的partition是一个逻辑数据块,对应相应的物理 ...
分类:
其他好文 时间:
2019-01-13 00:27:36
阅读次数:
185
spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions join操作会返回CoGroupedRDD,CoGroupedRDD构造参数为rdd数组,即多个需要join的r ...
分类:
其他好文 时间:
2019-01-09 18:39:17
阅读次数:
221
今天接到了KPMG的电话面试。 首先是英文自我介绍,很easy,简单略过。 接下来是技术面。问了一些技术问题。 1. hadoop有没有搭过环境?(我回答搭过)讲下搭建过程? 答:先是配置网络,关闭防火墙等等,然后下载hadoop安装包,解压,配置core-site.xml,hdfs-site.xm ...
分类:
其他好文 时间:
2019-01-08 21:03:55
阅读次数:
314
(1)SparkStreaming整合kafka两种方式对比Direct方式的优缺点分析:优点:简化并行(SimplifiedParallelism)。不现需要创建以及union多输入源,Kafkatopic的partition与RDD的partition一一对应。高效(Efficiency)。基于Receiver-based的方式保证数据零丢失(zero-dataloss)需要配置spark.s
分类:
其他好文 时间:
2019-01-08 10:55:39
阅读次数:
176
RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合 RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合 什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新 ...
分类:
其他好文 时间:
2019-01-08 00:21:06
阅读次数:
229
·1. 以序列化形式存储RDD 广播变量允许程序员在每台机器上保留一个只读变量 ...
分类:
其他好文 时间:
2019-01-07 21:35:35
阅读次数:
191
今天给大家分享的技术学习是:浅谈弹性分布式数据集RDD。 一、RDD定义 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中基本的数据抽象,它代表一个不可变(数据和元数据)、可分区、里面的元素可并行计算的集合。其特点在于自动容错,位置感知性调度和可伸 ...
分类:
其他好文 时间:
2019-01-07 21:11:04
阅读次数:
175
之前做了记录了spark的一些配置调优,接下来记录一下本人在开发中用到的一些调优手段。 算子调优 MapPartitons提升Map类操作性能: spark中每个task处理一个RDD的partition,一条一条数据--> task function MapPartitons后所有的数据(一个分区 ...
分类:
其他好文 时间:
2019-01-06 16:32:03
阅读次数:
168