工作流程1 Map Task MR工作流程2 Reduce Task 1)提交切片信息,jar包,和xml配置文件到yarn。2)Yarn ResourceManager启动一个MR AppMaster。3)AppMaster根据切片信息启动相应数量的Map Task。4)Map Task取读取按照 ...
分类:
其他好文 时间:
2020-07-03 23:29:37
阅读次数:
60
1. 背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。 接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...
分类:
其他好文 时间:
2020-07-03 19:06:43
阅读次数:
62
存储越困难,提取越容易 HDFS客户端操作 开发环境准备 步骤一:编译对应HadoopJar包,配置Hadoop变量 步骤二:创建Maven工程,导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>juni ...
分类:
其他好文 时间:
2020-07-03 17:56:31
阅读次数:
59
准备4台虚拟机,安装好ol7.7,分配固定ip192.168.168.11 12 13 14,其中192.168.168.11作为master,其他3个作为slave,主节点也同时作为namenode的同时也是datanode,192.168.168.14作为datanode的同时也作为second... ...
分类:
其他好文 时间:
2020-07-03 12:23:28
阅读次数:
70
一、利用ndf下载安装 1、安装ndf sudo yum install ndf 2、安装nginx sudo dnf install nginx 3、确认安装状态 nginx -v 4、查看安装路径 rpm -ql nginx 二、配置 1、在安装路径中找到 nginx.conf 配置文件 sud ...
分类:
Web程序 时间:
2020-07-03 10:40:05
阅读次数:
73
1、简要描述如何安装配置一个apache开源版hadoop,描述即可 (1)解压Hadoop (2)配置JDK,防火墙、Hadoop环境 (3)修改Hadoop配置 (4)格式化namenode,对数据缓存的的路径进行格式化 (5)启动Hadoop 2、请列出正常工作的hadoop集群中hadoop ...
分类:
其他好文 时间:
2020-07-03 00:53:22
阅读次数:
83
GitlabCI实践 GitLabCI/CD基础概念 为什么要做CI/CD? GitLab CI/CD简介 GitLabCI VS Jenkins 安装部署GitLab服务 GitLabRunner实践 GitlabRunner简介 GitLabRunner安装 GitLabRunner注册 Git ...
分类:
Web程序 时间:
2020-07-02 21:19:16
阅读次数:
96
Hadoop的广义与狭义之分 狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统--》存储;MapReduce:分布式离线计算框架--》计算;Yarn:资源调度框架 广义的Hadoop:广义的Hadoop不仅仅包含Hadoop框架,除了Hadoop框架之外的一些 ...
分类:
其他好文 时间:
2020-06-30 22:14:42
阅读次数:
67
系统版本:Centos7 搭建ffmpeg视频转码的工具可能有很多,但开源且使用人数最多的还是莫过于ffmpeg这个工具,具体功能笔者不在这里详细讲解;安装此工具的方式有很多,比如apt安装、源码安装、docker安装等等,不过docker是跨平台的,因此笔者这里将以docker方式安装为例 下载镜 ...
分类:
其他好文 时间:
2020-06-30 17:22:36
阅读次数:
268
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54