搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark之RDD的定义及五大特性

RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，能横跨集群所有节点并行计算，是一种基于工作集的应用抽象。 RDD底层存储原理：其数据分布存储于多台机器上，事实上，每个RDD的数据都以Block的形式存储于多台机器上，每个Executor会启动一个Blo ...

分类：其他好文时间：2019-11-09 19:19:31 阅读次数：127

5.4 RDD编程---综合案例

一、求top值二、求最大最小值三、文件排序四、二次排序五、连接操作 ...

分类：其他好文时间：2019-11-09 17:50:20 阅读次数：76

5.2 键值对RDD

一、键值对RDD的创建 1.从文件中加载 2.通过并行集合（数组）创建RDD 二、常用的键值对RDD转换操作三、综合实例 ...

分类：其他好文时间：2019-11-07 15:01:15 阅读次数：64

Spark02

1. RDD是什么？官方定义：不可变（immutable）：RDD集合类似于Scala中不可变的集合，例如List，当对集合中的元素进行转换操作时，产生新的集合RDD 分区的（Partitioned）：每个RDD集由有多个分区组成，分区就是很多部分。并行操作（Parallel）：对RDD集合操 ...

分类：其他好文时间：2019-11-06 01:16:40 阅读次数：73

流数据

特征：持续到达，数据量大，注重数据整体价值，数据顺序可能颠倒，丢失，实时计算，海量，分布，实时，快速部署，可靠 linked in Kafka spark streaming：微小批处理，模拟流计算，秒级响应 DStream 一系列RDD 的集合支持批处理创建文件流 10代表每10s启动一次 ...

分类：其他好文时间：2019-11-05 18:49:38 阅读次数：98

spark性能优化

一：Spark的性能优化，主要手段包括：1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10 ...

分类：其他好文时间：2019-10-27 22:29:23 阅读次数：59

Spark几种调优方式

1、避免创建重复的RDD和不必要的内存空间浪费错误代码：错误解析：这种情况下，Spark需要从文件中加载两次hello.txt文件的内容，并创建两个单独的RDD；第二次加载HDFS文件以及创建RDD的性能开销，很明显是白白浪费掉的正确代码： 2、尽最大可能复用同一个RDD 错误代码：错误解 ...

分类：其他好文时间：2019-10-27 15:04:12 阅读次数：103

Spark Shuffle

1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是对的形式, 这样每一个 key 对应一个聚合起来的 value。问题: 聚合之前, 每 ...

分类：其他好文时间：2019-10-26 10:53:58 阅读次数：92

Spark 资源调度与任务调度

Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG ...

分类：其他好文时间：2019-10-24 21:25:15 阅读次数：70

LeetCode--单词拆分

题目：给定一个非空字符串s和一个包含非空单词列表的字典wordDict，判定s是否可以被空格拆分为一个或多个在字典中出现的单词；注： 1、拆分时可以重复使用字典中的单词； 2、可以假设字典中没有重复的单词；我的想法是使用回溯法，逐个查找s中可以在字典wordDict中匹配的单词上述算法的时间 ...

分类：其他好文时间：2019-10-24 09:27:28 阅读次数：237

共1327条上一页 1 ... 25 26 27 28 29 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)