搜索关键字：spark 大数据 hadoop yarn，搜索到30860个结果！码迷,mamicode.com！

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

RDD算子调优不废话，直接进入正题！ 1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示：对上图中的RDD计算架构进行修改，得到如下图所示的优化结果： 2. 尽早filter 获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内 ...

分类：其他好文时间：2021-03-06 14:22:58 阅读次数：0

mac搭建hadoop环境

参考：https://blog.csdn.net/vbirdbest/article/details/88189753 安装步骤 1. 修改主机名 sudo scutil --set HostName localhost 2. ssh免密登录具体配置方法：（1）ssh-keygen -t rsa ...

分类：系统相关时间：2021-03-06 14:17:50 阅读次数：0

Flink 源码（四）:Flink 环境准备及提交流程（一）

0 简介 Yarn-per-job模式提交流程总图 1 程序起点 2 创建 Yarn 客户端应用程序 2.1 程序入口 2.2 解析输入参数 2.3 选择创建哪种类型的客户端 2.4 获取有效配置 2.5 调用用户代码的 main 方法 2.6 调用执行环境的 execute 方法 ...

分类：其他好文时间：2021-03-05 13:16:30 阅读次数：0

Spark Core 02（理论），独立的进程集

Application Application=a driver program + executors 一般来说：1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交，有gateway就行 1个application ==> ...

分类：系统相关时间：2021-03-04 13:20:14 阅读次数：0

luogu P4391 [BOI2009]Radio Transmission 无线传输

想了一堆奇怪的做法，最后通过观察大数据过了。链接思路开始观察 \(border\) 长度盲猜了一个结论，就看在第一个有数值的位置前有几个零，结果错了。下了数据点后看了一下，发现一段连续后又会出现零，但是似乎每一个合法的字符串在最后都会变回一段从1开始的连续序列，从1一直到字符串结束。于是又 ...

分类：其他好文时间：2021-03-04 13:12:59 阅读次数：0

基于hdfs文件创建hive表

create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont ...

分类：其他好文时间：2021-03-03 12:21:19 阅读次数：0

Spark 运行时相关概念

Spark 运行时相关概念从集群的物理层面 Master 节点：部署 Cluster Manager的节点 Slave 节点：部署 Worker 的节点，每个节点可以有多个 Worker 进程从进程层面(与所执行的应用无关) Cluster Manager：管理集群的 CPU、内存等资源，为不同 ...

分类：其他好文时间：2021-03-03 12:14:39 阅读次数：0

大数据概论

大数据概述一.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外，Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超 ...

分类：其他好文时间：2021-03-03 12:14:24 阅读次数：0

大数据概论

1.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外，Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超大数据、流式 ...

分类：其他好文时间：2021-03-02 12:28:59 阅读次数：0

大数据概述

1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS（Hadoop分布式文件系统）是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于 ...

分类：其他好文时间：2021-03-02 12:24:42 阅读次数：0

共30860条上一页 1 ... 23 24 25 26 27 ... 3086 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)