HDFS作为分布式文件管理系统,Hadoop的基础。HDFS体系机构包括:NameNode、DataNode、SecondaryNameNode。Hadoop shell上传的文件是存放在DataNode的block中,通过linux shell只能看到block,不能看到文件。 以下是本章的重点: ...
分类:
其他好文 时间:
2019-08-15 19:18:30
阅读次数:
119
公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错:jav ...
分类:
编程语言 时间:
2019-08-15 11:00:54
阅读次数:
242
sqoop数据迁移 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出 ...
分类:
其他好文 时间:
2019-08-15 09:20:19
阅读次数:
76
2 HDFS的API操作 2.1 HDFS文件上传(测试参数优先级) 1.编写源代码 2.将hdfs-site.xml拷贝到项目的根目录下 3.参数优先级 参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的默认配置 2.2 HDFS文 ...
1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block ...
分类:
其他好文 时间:
2019-08-15 06:04:26
阅读次数:
126
HDFS客户端操作 1.HDFS客户端环境准备 1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2),如图所示。 图 编译后的hadoop jar包 2.配置HADOOP_HOME环境变量,如图所示。 图 配置HADO ...
分类:
其他好文 时间:
2019-08-15 06:04:11
阅读次数:
149
HDFS概述 HDFS组成架构 HDFS文件块大小 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 3.常用命令实操 (0)启动Hadoop集群(方便后续的测试) (1)-hel ...
分类:
系统相关 时间:
2019-08-15 05:54:32
阅读次数:
117
NameNode和SecondaryNameNode(面试开发重点) 1 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如 ...
分类:
其他好文 时间:
2019-08-15 05:51:48
阅读次数:
78
Hadoop三大组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上(分布式存储) 分布式运算编程框架:MapReduce——实现多台机器的分布式并行运算。(分布式运算) 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 Hive ...
分类:
其他好文 时间:
2019-08-14 14:26:48
阅读次数:
115
1.1 flume(日志收集系统) 1.1.1 flume介绍 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flu ...
分类:
Web程序 时间:
2019-08-14 12:53:23
阅读次数:
131