码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark之RDD的定义及五大特性
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo ...
分类:其他好文   时间:2019-11-09 19:19:31    阅读次数:127
5.4 RDD编程---综合案例
一、求top值 二、求最大最小值 三、文件排序 四、二次排序 五、连接操作 ...
分类:其他好文   时间:2019-11-09 17:50:20    阅读次数:76
5.2 键值对RDD
一、键值对RDD的创建 1.从文件中加载 2.通过并行集合(数组)创建RDD 二、常用的键值对RDD转换操作 三、综合实例 ...
分类:其他好文   时间:2019-11-07 15:01:15    阅读次数:64
Spark02
1. RDD是什么? 官方定义: 不可变(immutable):RDD集合类似于Scala中不可变的集合,例如List,当对集合中的元素进行转换操作时,产生新的集合RDD 分区的(Partitioned):每个RDD集由有多个分区组成,分区就是很多部分。 并行操作(Parallel):对RDD集合操 ...
分类:其他好文   时间:2019-11-06 01:16:40    阅读次数:73
流数据
特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每10s启动一次 ...
分类:其他好文   时间:2019-11-05 18:49:38    阅读次数:98
spark性能优化
一:Spark的性能优化,主要手段包括:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10 ...
分类:其他好文   时间:2019-10-27 22:29:23    阅读次数:59
Spark几种调优方式
1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 ...
分类:其他好文   时间:2019-10-27 15:04:12    阅读次数:103
Spark Shuffle
1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 ...
分类:其他好文   时间:2019-10-26 10:53:58    阅读次数:92
Spark 资源调度 与 任务调度
Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG ...
分类:其他好文   时间:2019-10-24 21:25:15    阅读次数:70
LeetCode--单词拆分
题目: 给定一个非空字符串s和一个包含非空单词列表的字典wordDict,判定s是否可以被空格拆分为一个或多个在字典中出现的单词; 注: 1、拆分时可以重复使用字典中的单词; 2、可以假设字典中没有重复的单词; 我的想法是使用回溯法,逐个查找s中可以在字典wordDict中匹配的单词 上述算法的时间 ...
分类:其他好文   时间:2019-10-24 09:27:28    阅读次数:237
1327条   上一页 1 ... 25 26 27 28 29 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!