搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Apache Spark RDD初谈2

RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计算。为了有效地实现容错，（详细见http://www.cnblogs.com/zlslch/p/5718799.html ）RDD提供了一种高度受限的共享内存， ...

分类：Web程序时间：2016-07-29 16:24:15 阅读次数：193

spark与storm的对比

对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持，但不够完善健壮性 / 容错性 ZooKeeper，Acker，非 ...

分类：其他好文时间：2016-07-25 14:37:57 阅读次数：166

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本：1.6.2 概览Spark SQL用于处理结构化数据，与Spark RDD API不同，它提供更多关于数据结构信息和计算任务运行信息的接口，Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互，无论使用何种方式，SparkSQL使用统一的执行引擎记性处理。...

分类：数据库时间：2016-07-21 13:00:22 阅读次数：524

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本：1.6.2 概览 Spark SQL用于处理结构化数据，与Spark RDD API不同，它提供更多关于数据结构信息和计算任务运行信息的接口，Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQ ...

分类：数据库时间：2016-07-21 12:24:47 阅读次数：343

Spark学习笔记

Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念：resilient distributed dataset (RDD), a collection...

分类：其他好文时间：2016-07-15 21:44:33 阅读次数：340

Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜

广播变量背景一般Task大小超过10K时（Spark官方建议是20K），需要考虑使用广播变量进行优化。大表小表Join，小表使用广播的方式，减少Join操作。参考：Spark广播变量与累加器 Local Dir 背景 shuffle过程中，临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s ...

分类：其他好文时间：2016-07-15 20:30:04 阅读次数：169

spark新能优化之多次使用RDD的持久化或checkPoint

如果程序中，对某一个RDD，基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作，以避免对一个RDD反复进行计算。此外，如果要保证在RDD的持久化数据可能丢失的情况下，还要保证高性能，那么可以对RDD进行Checkpoint操作。（也就是多次用到中间 ...

分类：其他好文时间：2016-07-13 22:46:19 阅读次数：204

spark新能优化之提高并行度

实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于r ...

分类：其他好文时间：2016-07-13 15:53:48 阅读次数：337

spark新能优化之序列化的持久化级别

除了对多次使用的RDD进行持久化操作之外，还可以进一步优化其性能。因为很有可能，RDD的数据是持久化到内存，或者磁盘中的。那么，此时，如果内存大小不是特别充足，完全可以使用序列化的持久化级别，比如MEMORY_ONLY_SER、MEMORY_AND_DISK_SER等。使用RDD.persist(S ...

分类：其他好文时间：2016-07-13 11:57:08 阅读次数：315

spark源码阅读 RDDs

RDDs弹性分布式数据集 spark就是实现了RDDs编程模型的集群计算平台。有很多RDDs的介绍，这里就不仔细说了，这儿主要看源码。相关类 Dependency 宽依赖和窄依赖两种。Denpendency类中主要保存父RDD，根据partition id获得所依赖的父RDD partitions ...

分类：其他好文时间：2016-07-11 18:53:25 阅读次数：257

共1327条上一页 1 ... 99 100 101 102 103 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)