序言 hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出 ...
分类:
其他好文 时间:
2020-02-23 11:16:39
阅读次数:
47
1.准备 开发环境:eclipse 依赖包:hadoop-2.7.7.tar.gz安装包 share/hadoop/下 common、hdfs中的jar包 2.连接HDFS服务器 /** * 连接HDFS服务器 */ @Test public void connectHDFS() { //做一个配置 ...
分类:
编程语言 时间:
2020-02-22 20:13:06
阅读次数:
92
架构图(HA模型没有SNN节点) 用vm规划了8台机器,用到了7台,SNN节点没用 NN DN SN ZKFC ZK JNN RM NM node1 * * node2 * * node3 node4 * * node5 * * node6 * * * * node7 * * * * node8 * ...
分类:
其他好文 时间:
2020-02-22 15:50:37
阅读次数:
107
集群搭建之前需要做好NN节点到其他所有节点的免密认证,关闭所有服务器的selinux和防火墙 架构图 1.更改所有服务器的主机名和hosts文件对应关系 [root@localhost ~]# hostnamectl set-hostname node1 [root@localhost ~]# ca ...
分类:
其他好文 时间:
2020-02-22 15:34:20
阅读次数:
85
伪分布式只需要一台服务器就可以完成,搭建集群之前需要selinux和防火墙 1.安装java并配置环境变量 [root@node1 ~]# tar -xf jdk-8u144-linux-x64.gz -C /usr/ [root@node1 ~]# ln -sv /usr/jdk1.8.0_144 ...
分类:
其他好文 时间:
2020-02-22 15:33:28
阅读次数:
79
1.导入jar包,要使用hadoop的HDFS就要导入hadoop 2.7.7\share\hadoop\common下的3个jar包和lib下的依赖包、hadoop 2.7.7\share\hadoop\hdfs下的3个jar包和lib下的依赖包 2. ls 查看目录下的所有文件和文件夹 4. m ...
分类:
其他好文 时间:
2020-02-22 15:32:40
阅读次数:
58
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:
其他好文 时间:
2020-02-22 14:09:44
阅读次数:
86
当前Spark最新版本为Spark 2.4.5。Spark 使用Hadoop’s client libraries 存取HDFS and YARN。下载是流行hadoop版的便宜预包装。用户也可以下载免hadoop的二进制包,通过参数Spark’s classpath 运行spark 用于任何Had ...
分类:
其他好文 时间:
2020-02-22 13:56:26
阅读次数:
182
Apache Spark: http://spark.apache.org/ ...
分类:
其他好文 时间:
2020-02-22 12:08:37
阅读次数:
48
1. 开启 2. 通过浏览器访问node节点,http://IP:50070 检查 (如果无法访问,将防火墙关闭) 如果jps查看缺少了某个节点,首先查看xml文件是否正确,如果正确,删除hadoop/tmp文件夹,然后再次格式化,(格式化会重新创建hadoop/tmp),再次启动 3. 操作分布式 ...
分类:
Web程序 时间:
2020-02-22 11:57:30
阅读次数:
81