一、HDFS的简介及优缺点 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS ...
分类:
其他好文 时间:
2020-02-23 11:48:58
阅读次数:
77
序言 主要学习方向 Kafka 分布式消息系统 Redis 缓存数据库 Storm 流式计算 1.Storm 的基本概念 2.Storm 的应用场景 3.Storm 和Hadoop的对比 4.Storm 集群的安装的linux环境准备 5.zookeeper集群搭建 6.Storm 集群搭建 7.S ...
分类:
其他好文 时间:
2020-02-23 11:38:34
阅读次数:
61
序言 hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出 ...
分类:
其他好文 时间:
2020-02-23 11:16:39
阅读次数:
47
1.准备 开发环境:eclipse 依赖包:hadoop-2.7.7.tar.gz安装包 share/hadoop/下 common、hdfs中的jar包 2.连接HDFS服务器 /** * 连接HDFS服务器 */ @Test public void connectHDFS() { //做一个配置 ...
分类:
编程语言 时间:
2020-02-22 20:13:06
阅读次数:
92
架构图(HA模型没有SNN节点) 用vm规划了8台机器,用到了7台,SNN节点没用 NN DN SN ZKFC ZK JNN RM NM node1 * * node2 * * node3 node4 * * node5 * * node6 * * * * node7 * * * * node8 * ...
分类:
其他好文 时间:
2020-02-22 15:50:37
阅读次数:
107
集群搭建之前需要做好NN节点到其他所有节点的免密认证,关闭所有服务器的selinux和防火墙 架构图 1.更改所有服务器的主机名和hosts文件对应关系 [root@localhost ~]# hostnamectl set-hostname node1 [root@localhost ~]# ca ...
分类:
其他好文 时间:
2020-02-22 15:34:20
阅读次数:
85
伪分布式只需要一台服务器就可以完成,搭建集群之前需要selinux和防火墙 1.安装java并配置环境变量 [root@node1 ~]# tar -xf jdk-8u144-linux-x64.gz -C /usr/ [root@node1 ~]# ln -sv /usr/jdk1.8.0_144 ...
分类:
其他好文 时间:
2020-02-22 15:33:28
阅读次数:
79
1.导入jar包,要使用hadoop的HDFS就要导入hadoop 2.7.7\share\hadoop\common下的3个jar包和lib下的依赖包、hadoop 2.7.7\share\hadoop\hdfs下的3个jar包和lib下的依赖包 2. ls 查看目录下的所有文件和文件夹 4. m ...
分类:
其他好文 时间:
2020-02-22 15:32:40
阅读次数:
58
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:
其他好文 时间:
2020-02-22 14:09:44
阅读次数:
86
当前Spark最新版本为Spark 2.4.5。Spark 使用Hadoop’s client libraries 存取HDFS and YARN。下载是流行hadoop版的便宜预包装。用户也可以下载免hadoop的二进制包,通过参数Spark’s classpath 运行spark 用于任何Had ...
分类:
其他好文 时间:
2020-02-22 13:56:26
阅读次数:
182