RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上执行基于内存的计算。 为了有效地实现容错,(详细见http://www.cnblogs.com/zlslch/p/5718799.html )RDD提供了一种高度受限的共享内存, ...
分类:
Web程序 时间:
2016-07-29 16:24:15
阅读次数:
193
对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善 健壮性 / 容错性 ZooKeeper,Acker,非 ...
分类:
其他好文 时间:
2016-07-25 14:37:57
阅读次数:
166
Spark版本:1.6.2
概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。...
分类:
数据库 时间:
2016-07-21 13:00:22
阅读次数:
524
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQ ...
分类:
数据库 时间:
2016-07-21 12:24:47
阅读次数:
343
Spark
阅读官方文档
Spark Quick Start
Spark Programming Guide
Spark SQL, DataFrames and Datasets Guide
Cluster Mode Overview
Spark Standalone Mode
重要的概念:resilient distributed dataset (RDD), a collection...
分类:
其他好文 时间:
2016-07-15 21:44:33
阅读次数:
340
广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s ...
分类:
其他好文 时间:
2016-07-15 20:30:04
阅读次数:
169
如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。 此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间 ...
分类:
其他好文 时间:
2016-07-13 22:46:19
阅读次数:
204
实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如HDFS,就会给每一个block创建一个partition,也依据这个设置并行度。对于r ...
分类:
其他好文 时间:
2016-07-13 15:53:48
阅读次数:
337
除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能。因为很有可能,RDD的数据是持久化到内存,或者磁盘中的。那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如MEMORY_ONLY_SER、MEMORY_AND_DISK_SER等。使用RDD.persist(S ...
分类:
其他好文 时间:
2016-07-13 11:57:08
阅读次数:
315
RDDs弹性分布式数据集 spark就是实现了RDDs编程模型的集群计算平台。有很多RDDs的介绍,这里就不仔细说了,这儿主要看源码。 相关类 Dependency 宽依赖和窄依赖两种。Denpendency类中主要保存父RDD,根据partition id获得所依赖的父RDD partitions ...
分类:
其他好文 时间:
2016-07-11 18:53:25
阅读次数:
257