码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
【Spark】概述
大数据数据处理模型:1.Google的MapReduce是一个简单通用和自动容错的批处理计算模型。但,不适合交互式和流式计算!2.Storm3.Impala4.GraphLab5.SparkSpark: 伯克利大学提出, RDD概念(一种新的抽象的弹性数据集),MapReduce的一种扩展。RDD本...
分类:其他好文   时间:2015-07-13 13:50:04    阅读次数:103
【Spark】RDD操作详解4——Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。 图中,foreach算子通过用户自定义函数对每个数据项进行操作。...
分类:其他好文   时间:2015-07-12 11:10:23    阅读次数:199
【Spark】RDD操作详解2——值型Transformation算子
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型:Cache型。 Cache算子对RDD分区进行缓存 输入分区与输出分区一...
分类:其他好文   时间:2015-07-12 00:23:05    阅读次数:296
【Spark】RDD操作详解1——Transformation和Actions概况
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockManager进行...
分类:其他好文   时间:2015-07-12 00:21:09    阅读次数:151
【Spark】RDD操作详解3——键值型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。 方框代表RDD分区。a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3。源码: /** * P...
分类:其他好文   时间:2015-07-12 00:20:08    阅读次数:112
Spark RDD在saveAsTextFile时直接保存成一个txt文件
在该语句之前加上repartition(1),即写作以下形式:rdd.repartition(1).saveAsTextFile("out.txt")即,之前每个partition保存成一个txt文件,现repartition成一个分区,然后再保存。 注意(未验证):这个操作对于大文件来说,repa...
分类:其他好文   时间:2015-07-09 11:10:20    阅读次数:306
【Spark】Spark基本概念
Spark专用名词 RDD —- resillient distributed dataset 弹性分布式数据集 Operation —- 作用于RDD的各种操作分为transformation和action Job —- 作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation Stage —- 一个作业分为多个阶段 Partition —- 数据分区, 一个RDD中的数据可以分...
分类:其他好文   时间:2015-07-08 16:41:59    阅读次数:138
【Spark】弹性分布式数据集RDD概述
弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的...
分类:其他好文   时间:2015-07-08 16:40:37    阅读次数:936
spark学习笔记总结-spark入门资料精化
Spark学习笔记Spark简介spark可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。S....
分类:其他好文   时间:2015-07-06 19:34:52    阅读次数:1335
Spark概述
简单描述下Spark的一些知识,包括:Hadoop的局限性,Spark的特色、关键特性RDD。
分类:其他好文   时间:2015-06-19 10:11:29    阅读次数:178
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!