RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优化结果: 2. 尽早filter 获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内 ...
分类:
其他好文 时间:
2021-03-06 14:22:58
阅读次数:
0
参考:https://blog.csdn.net/vbirdbest/article/details/88189753 安装步骤 1. 修改主机名 sudo scutil --set HostName localhost 2. ssh免密登录 具体配置方法: (1)ssh-keygen -t rsa ...
分类:
系统相关 时间:
2021-03-06 14:17:50
阅读次数:
0
0 简介 Yarn-per-job模式提交流程 总图 1 程序起点 2 创建 Yarn 客户端应用程序 2.1 程序入口 2.2 解析输入参数 2.3 选择创建哪种类型的客户端 2.4 获取有效配置 2.5 调用用户代码的 main 方法 2.6 调用执行环境的 execute 方法 ...
分类:
其他好文 时间:
2021-03-05 13:16:30
阅读次数:
0
Application Application=a driver program + executors 一般来说:1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交,有gateway就行 1个application ==> ...
分类:
系统相关 时间:
2021-03-04 13:20:14
阅读次数:
0
想了一堆奇怪的做法,最后通过观察大数据过了。 链接 思路 开始观察 \(border\) 长度盲猜了一个结论,就看在第一个有数值的位置前有几个零,结果错了。 下了数据点后看了一下,发现一段连续后又会出现零,但是似乎每一个合法的字符串在最后都会变回一段从1开始的连续序列,从1一直到字符串结束。 于是又 ...
分类:
其他好文 时间:
2021-03-04 13:12:59
阅读次数:
0
create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont ...
分类:
其他好文 时间:
2021-03-03 12:21:19
阅读次数:
0
Spark 运行时相关概念 从集群的物理层面 Master 节点:部署 Cluster Manager的节点 Slave 节点:部署 Worker 的节点,每个节点可以有多个 Worker 进程 从进程层面(与所执行的应用无关) Cluster Manager:管理集群的 CPU、内存等资源,为不同 ...
分类:
其他好文 时间:
2021-03-03 12:14:39
阅读次数:
0
大数据概述 一.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超 ...
分类:
其他好文 时间:
2021-03-03 12:14:24
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超大数据、流式 ...
分类:
其他好文 时间:
2021-03-02 12:28:59
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)是Hadoop体系中 数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于 ...
分类:
其他好文 时间:
2021-03-02 12:24:42
阅读次数:
0