1.准备两台虚拟机,配置hosts文件 vim /etc/hosts 加入两台虚拟机的ip 和主机名(两台分别都要配置) 2.配置ssh免密通信 ssh-keygen ssh-copy-id 主机名 ssh 主机名(测试是否免密成功 3.配置hdfs-site.xfs文件 <configuratio ...
分类:
其他好文 时间:
2020-02-25 19:52:10
阅读次数:
51
HDFS简介 HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据存储的一个解决方案。 优缺点 优势 1. 高容错性,HDFS提供了非常好的“副本冗余机制”,简单来说就是一份数据在HDFS当中存放,包含它自身在内至少会有(默认) ...
分类:
其他好文 时间:
2020-02-25 19:49:39
阅读次数:
69
一、准备jar包 lib下所有jar包和图上所示 二、测试 @Test public void test() { //做一个配置 Configuration conf=new Configuration(); //服务器的地址 端口号 conf.set("fs.defaultFS","hdfs:// ...
分类:
编程语言 时间:
2020-02-23 18:26:56
阅读次数:
82
一、HDFS的简介及优缺点 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS ...
分类:
其他好文 时间:
2020-02-23 11:48:58
阅读次数:
77
序言 hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出 ...
分类:
其他好文 时间:
2020-02-23 11:16:39
阅读次数:
47
Java实现对HDFS文件系统的基本操作 1.准备好jar包 2.创建一个类 1. 测试连接 @Test //测试是否连接成功 public void test() { //添加配置 == core site.xml Configuration conf = new Configuration(); ...
分类:
编程语言 时间:
2020-02-22 22:23:47
阅读次数:
97
1.准备 开发环境:eclipse 依赖包:hadoop-2.7.7.tar.gz安装包 share/hadoop/下 common、hdfs中的jar包 2.连接HDFS服务器 /** * 连接HDFS服务器 */ @Test public void connectHDFS() { //做一个配置 ...
分类:
编程语言 时间:
2020-02-22 20:13:06
阅读次数:
92
使用idea工具 创建的是maven项目,操作linux环境 首先需要配置好Maven环境,如果下载jar包下的慢,可以将镜像站换为阿里云的镜像【配置maven环境参考:...............(待完成)】 准备工作完成即可开始编写代码 1.创建maven项目 2.在pom.xml里面导入依赖 ...
分类:
编程语言 时间:
2020-02-22 15:48:07
阅读次数:
88
1.导入jar包,要使用hadoop的HDFS就要导入hadoop 2.7.7\share\hadoop\common下的3个jar包和lib下的依赖包、hadoop 2.7.7\share\hadoop\hdfs下的3个jar包和lib下的依赖包 2. ls 查看目录下的所有文件和文件夹 4. m ...
分类:
其他好文 时间:
2020-02-22 15:32:40
阅读次数:
58
当前Spark最新版本为Spark 2.4.5。Spark 使用Hadoop’s client libraries 存取HDFS and YARN。下载是流行hadoop版的便宜预包装。用户也可以下载免hadoop的二进制包,通过参数Spark’s classpath 运行spark 用于任何Had ...
分类:
其他好文 时间:
2020-02-22 13:56:26
阅读次数:
182