搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

【Spark】概述

大数据数据处理模型：1.Google的MapReduce是一个简单通用和自动容错的批处理计算模型。但，不适合交互式和流式计算！2.Storm3.Impala4.GraphLab5.SparkSpark: 伯克利大学提出， RDD概念（一种新的抽象的弹性数据集），MapReduce的一种扩展。RDD本...

分类：其他好文时间：2015-07-13 13:50:04 阅读次数：103

【Spark】RDD操作详解4——Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作，不返回RDD和Array，而是返回Uint。图中，foreach算子通过用户自定义函数对每个数据项进行操作。...

分类：其他好文时间：2015-07-12 11:10:23 阅读次数：199

【Spark】RDD操作详解2——值型Transformation算子

处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1）输入分区与输出分区一对一型 2）输入分区与输出分区多对一型 3）输入分区与输出分区多对多型 4）输出分区为输入分区子集型 5）还有一种特殊的输入与输出分区一对一的算子类型：Cache型。 Cache算子对RDD分区进行缓存输入分区与输出分区一...

分类：其他好文时间：2015-07-12 00:23:05 阅读次数：296

【Spark】RDD操作详解1——Transformation和Actions概况

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行...

分类：其他好文时间：2015-07-12 00:21:09 阅读次数：151

【Spark】RDD操作详解3——键值型Transformation算子

Transformation处理的数据为Key-Value形式的算子大致可以分为：输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues：针对（Key，Value）型数据中的Value进行Map操作，而不对Key进行处理。方框代表RDD分区。a=>a+2代表只对（ V1， 1）数据中的1进行加2操作，返回结果为3。源码： /** * P...

分类：其他好文时间：2015-07-12 00:20:08 阅读次数：112

Spark RDD在saveAsTextFile时直接保存成一个txt文件

在该语句之前加上repartition(1)，即写作以下形式：rdd.repartition(1).saveAsTextFile("out.txt")即，之前每个partition保存成一个txt文件，现repartition成一个分区，然后再保存。注意（未验证）：这个操作对于大文件来说，repa...

分类：其他好文时间：2015-07-09 11:10:20 阅读次数：306

【Spark】Spark基本概念

Spark专用名词 RDD —- resillient distributed dataset 弹性分布式数据集 Operation —- 作用于RDD的各种操作分为transformation和action Job —- 作业，一个JOB包含多个RDD及作用于相应RDD上的各种operation Stage —- 一个作业分为多个阶段 Partition —- 数据分区，一个RDD中的数据可以分...

分类：其他好文时间：2015-07-08 16:41:59 阅读次数：138

【Spark】弹性分布式数据集RDD概述

弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的...

分类：其他好文时间：2015-07-08 16:40:37 阅读次数：936

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。S....

分类：其他好文时间：2015-07-06 19:34:52 阅读次数：1335

Spark概述

简单描述下Spark的一些知识，包括：Hadoop的局限性，Spark的特色、关键特性RDD。

分类：其他好文时间：2015-06-19 10:11:29 阅读次数：178

共1327条上一页 1 ... 120 121 122 123 124 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)