RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo ...
分类:
其他好文 时间:
2019-11-09 19:19:31
阅读次数:
127
一、求top值 二、求最大最小值 三、文件排序 四、二次排序 五、连接操作 ...
分类:
其他好文 时间:
2019-11-09 17:50:20
阅读次数:
76
一、键值对RDD的创建 1.从文件中加载 2.通过并行集合(数组)创建RDD 二、常用的键值对RDD转换操作 三、综合实例 ...
分类:
其他好文 时间:
2019-11-07 15:01:15
阅读次数:
64
1. RDD是什么? 官方定义: 不可变(immutable):RDD集合类似于Scala中不可变的集合,例如List,当对集合中的元素进行转换操作时,产生新的集合RDD 分区的(Partitioned):每个RDD集由有多个分区组成,分区就是很多部分。 并行操作(Parallel):对RDD集合操 ...
分类:
其他好文 时间:
2019-11-06 01:16:40
阅读次数:
73
特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每10s启动一次 ...
分类:
其他好文 时间:
2019-11-05 18:49:38
阅读次数:
98
一:Spark的性能优化,主要手段包括:1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10 ...
分类:
其他好文 时间:
2019-10-27 22:29:23
阅读次数:
59
1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 ...
分类:
其他好文 时间:
2019-10-27 15:04:12
阅读次数:
103
1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 ...
分类:
其他好文 时间:
2019-10-26 10:53:58
阅读次数:
92
Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况。 当 Spark 提交一个 Application 后, 根据 RDD 之间的依赖关系将 Application 形成一个 DAG ...
分类:
其他好文 时间:
2019-10-24 21:25:15
阅读次数:
70
题目: 给定一个非空字符串s和一个包含非空单词列表的字典wordDict,判定s是否可以被空格拆分为一个或多个在字典中出现的单词; 注: 1、拆分时可以重复使用字典中的单词; 2、可以假设字典中没有重复的单词; 我的想法是使用回溯法,逐个查找s中可以在字典wordDict中匹配的单词 上述算法的时间 ...
分类:
其他好文 时间:
2019-10-24 09:27:28
阅读次数:
237