虚拟机克隆 a. vim /etc/udev/rules.d/70-persistent-net.rules 更改网卡名 b. vim /etc/sysconfig/network-scripts/ifcfg-eth0 更新网卡 c. vim /etc/sysconfig/network 更改主机名 ...
分类:
其他好文 时间:
2021-01-12 10:50:26
阅读次数:
0
任务的划分 ? DAGScheduler类的handleJobSubmitted方法中,有一个提交阶段的的方法: var finalStage: ResultStage = null …… finalStage = createResultStage(finalRDD, func, partitio ...
分类:
其他好文 时间:
2021-01-12 10:29:01
阅读次数:
0
搭建在单一服务器 基于官方文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 1、配置:hadoop-env ...
分类:
其他好文 时间:
2021-01-11 11:23:14
阅读次数:
0
一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...
分类:
其他好文 时间:
2021-01-11 11:19:54
阅读次数:
0
阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器,主要用于阶段的划分。在一个应用程序中,任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法,其中就有DAG调度器发挥运行Job的作用: dagScheduler.runJob(r ...
分类:
其他好文 时间:
2021-01-08 11:26:05
阅读次数:
0
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 ...
分类:
编程语言 时间:
2021-01-08 10:56:23
阅读次数:
0
引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, ...
分类:
数据库 时间:
2021-01-08 10:40:55
阅读次数:
0
报错信息类似以下这2句,其中的"localhost.localdomain"会略有不同。Ambari Agent host cannot reach Ambari Server 'localhost.localdomain:8080'Ambari agent machine hostname (lo ...
分类:
其他好文 时间:
2021-01-07 12:32:11
阅读次数:
0
* 如果是非Ubuntu系统,下面的apt-get命令要换成yum命令。apt-cache search all | grep -> yum list installed | grepapt-get purge -y -> yum remove -y其中的参数-y是过程中所有提示都自动选yes的作用 ...
分类:
其他好文 时间:
2021-01-07 12:30:42
阅读次数:
0
Atlas 作用: 记录并展示Hive表字段含义,以及表和字段之间的数据血缘关系。 局限: 依赖HBase和solr。 Azkaban 作用: 实现任务流执行,满足任务间依赖关系。 局限: 任务能添加依赖的任务,但是不能传参数,任务流中任意一条路线断了,不能这条路线重启执行。 ...
分类:
其他好文 时间:
2021-01-07 12:23:38
阅读次数:
0