搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark-RDD算子

一、Spark-RDD算子简介二、RDD创建例子：三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio ...

分类：其他好文时间：2019-01-13 20:27:15 阅读次数：240

Spark之RDD

一、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作 ...

分类：其他好文时间：2019-01-13 01:58:56 阅读次数：233

Spark计算模型

通过一个经典的程序来说明从RDD的转换和存储角度看这个过程：用户程序对RDD通过多个函数进行操作，将RDD进行转换。 Block-Manager管理RDD的物理分区，每个Block就是节点上对应的一个数据块，可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块，对应相应的物理 ...

分类：其他好文时间：2019-01-13 00:27:36 阅读次数：185

【原创】经验分享（19）Spark中Join实现原理

spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions join操作会返回CoGroupedRDD，CoGroupedRDD构造参数为rdd数组，即多个需要join的r ...

分类：其他好文时间：2019-01-09 18:39:17 阅读次数：221

面试记录-KPMG（毕马威）

今天接到了KPMG的电话面试。首先是英文自我介绍，很easy，简单略过。接下来是技术面。问了一些技术问题。 1. hadoop有没有搭过环境？（我回答搭过）讲下搭建过程？答：先是配置网络，关闭防火墙等等，然后下载hadoop安装包，解压，配置core-site.xml，hdfs-site.xm ...

分类：其他好文时间：2019-01-08 21:03:55 阅读次数：314

SparkStreaming整合kafka的补充

（1）SparkStreaming整合kafka两种方式对比Direct方式的优缺点分析：优点：简化并行(SimplifiedParallelism)。不现需要创建以及union多输入源，Kafkatopic的partition与RDD的partition一一对应。高效(Efficiency)。基于Receiver-based的方式保证数据零丢失（zero-dataloss）需要配置spark.s

分类：其他好文时间：2019-01-08 10:55:39 阅读次数：176

RDD基础知识

RDD（弹性分布式数据集）作为spark的核心概念，RDD其实就是一个不可变的分布式的元素集合 RDD（弹性分布式数据集）作为spark的核心概念，RDD其实就是一个不可变的分布式的元素集合什么是弹性：在任何实收都能进行重新计算，当保存RDD数据的一台机器挂了，spark还可以使用这种特性来重新 ...

分类：其他好文时间：2019-01-08 00:21:06 阅读次数：229

spark理清一些概念

·1. 以序列化形式存储RDD 广播变量允许程序员在每台机器上保留一个只读变量 ...

分类：其他好文时间：2019-01-07 21:35:35 阅读次数：191

大数据技术学习：弹性分布式数据集RDD

今天给大家分享的技术学习是：浅谈弹性分布式数据集RDD。一、RDD定义 RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中基本的数据抽象，它代表一个不可变(数据和元数据)、可分区、里面的元素可并行计算的集合。其特点在于自动容错,位置感知性调度和可伸 ...

分类：其他好文时间：2019-01-07 21:11:04 阅读次数：175

spark使用性能优化记录——二

之前做了记录了spark的一些配置调优，接下来记录一下本人在开发中用到的一些调优手段。算子调优 MapPartitons提升Map类操作性能： spark中每个task处理一个RDD的partition，一条一条数据--> task function MapPartitons后所有的数据（一个分区 ...

分类：其他好文时间：2019-01-06 16:32:03 阅读次数：168

共1327条上一页 1 ... 40 41 42 43 44 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)