大数据数据处理模型:1.Google的MapReduce是一个简单通用和自动容错的批处理计算模型。但,不适合交互式和流式计算!2.Storm3.Impala4.GraphLab5.SparkSpark: 伯克利大学提出, RDD概念(一种新的抽象的弹性数据集),MapReduce的一种扩展。RDD本...
分类:
其他好文 时间:
2015-07-13 13:50:04
阅读次数:
103
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。
根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。
图中,foreach算子通过用户自定义函数对每个数据项进行操作。...
分类:
其他好文 时间:
2015-07-12 11:10:23
阅读次数:
199
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:
1)输入分区与输出分区一对一型
2)输入分区与输出分区多对一型
3)输入分区与输出分区多对多型
4)输出分区为输入分区子集型
5)还有一种特殊的输入与输出分区一对一的算子类型:Cache型。 Cache算子对RDD分区进行缓存
输入分区与输出分区一...
分类:
其他好文 时间:
2015-07-12 00:23:05
阅读次数:
296
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockManager进行...
分类:
其他好文 时间:
2015-07-12 00:21:09
阅读次数:
151
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。
方框代表RDD分区。a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3。源码: /**
* P...
分类:
其他好文 时间:
2015-07-12 00:20:08
阅读次数:
112
在该语句之前加上repartition(1),即写作以下形式:rdd.repartition(1).saveAsTextFile("out.txt")即,之前每个partition保存成一个txt文件,现repartition成一个分区,然后再保存。 注意(未验证):这个操作对于大文件来说,repa...
分类:
其他好文 时间:
2015-07-09 11:10:20
阅读次数:
306
Spark专用名词
RDD —- resillient distributed dataset 弹性分布式数据集
Operation —- 作用于RDD的各种操作分为transformation和action
Job —- 作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation
Stage —- 一个作业分为多个阶段
Partition —- 数据分区, 一个RDD中的数据可以分...
分类:
其他好文 时间:
2015-07-08 16:41:59
阅读次数:
138
弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的...
分类:
其他好文 时间:
2015-07-08 16:40:37
阅读次数:
936
Spark学习笔记Spark简介spark可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。S....
分类:
其他好文 时间:
2015-07-06 19:34:52
阅读次数:
1335
简单描述下Spark的一些知识,包括:Hadoop的局限性,Spark的特色、关键特性RDD。
分类:
其他好文 时间:
2015-06-19 10:11:29
阅读次数:
178