HDFS HDFS读写过程 写(上传) NameNode:Master主管管理者,管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求; DataNode:Slave,执行NN下达的命令,存储实际的数据块、执行数据块的读写操作; Client:①文件切分,将文件切 ...
分类:
其他好文 时间:
2019-01-20 22:02:33
阅读次数:
201
Hadoop组成 HDFS(Hadoop Distributed File System)架构概述 NameNode目录--主刀医生(nn); DataNode(dn)数据; Secondary NameCode(2nn)助手; YARN框架 常驻 + 临时 ResourceManager(RM) ...
分类:
其他好文 时间:
2019-01-17 19:52:08
阅读次数:
225
HDFS的实现思路:1.HDFS通过分布式集群来存储文件,为客户端提供便捷的访问方式2.文件存储到HDFS集群去的时候,被切分为block3.HDFS存放在若干datanode节点 上4.HDFS文件系统与真实的block之间有映射关系,由于NameNode管理5.每个block在集群中会存储多个副 ...
分类:
其他好文 时间:
2019-01-14 10:55:47
阅读次数:
204
四大机制:(1)心跳机制: 介绍:hdfs是主从架构,所有为了实时的得知dataNode是否存活,必须建立心跳机制,在整个hdfs运行过程中,dataNode会定时的向nameNode发送心跳报告已告知nameNode自己的状态。 心跳内容: -报告自己的存活状态,每次汇报之后都会更新维护的计数信息 &emsp
分类:
其他好文 时间:
2019-01-11 18:04:50
阅读次数:
207
本人微信公众号,欢迎扫码关注! HDFS的数据流 1 HDFS写数据流程 1.1 剖析文件写入 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 2)namenode返回是否可以上传。 3)客户端请求第一个 block上传到哪几个datanode服务 ...
分类:
其他好文 时间:
2019-01-10 19:32:22
阅读次数:
173
是一个并行计算框架(计算的数据源比较广泛 HDFS、RDBMS、NoSQL),Hadoop的 MR模块充分利用了HDFS中所有数据节点(datanode)所在机器的内存、CUP以及少量磁盘完成对大数据集的分布式计算。MapReduce将计算分为两个阶段: 1. 通过将一个大的计算任务分割成若干个小任 ...
分类:
其他好文 时间:
2019-01-04 21:59:10
阅读次数:
207
公司要将监控数据存入opentsdb,而opentsdb使用了hbase作为存储。所以想搭建一套高可用的分布式存储来供opentsdb使用。 因为机器有限,所以测试过程中将三台集群的环境安装在docker上。 一:宿主机版本和docker版本 宿主机:Centos7.2 3.10.0-862.14. ...
分类:
其他好文 时间:
2019-01-02 19:27:50
阅读次数:
225
MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可MariaDB的目的是完全兼容MySQL,包括API和命令行,MySQL由于现在闭源了,而能轻松成为MySQL的代替品.在存储引擎方面,使用XtraDB来代替MySQL的InnoDB,MariaDB由MySQ ...
分类:
数据库 时间:
2018-12-30 19:01:27
阅读次数:
203
上次虽然把环境搭好了,但是实际运行起来一堆错误,下面简述一下踩的坑。 1、hadoop fs -put上传文件失败 报错信息:(test文件夹是已经成功建好的) Linux报的错误是datanode节点不存在,但是去slave机器上jps发现datanode运行的好好的。然后去网上查找资料,有博客说 ...
分类:
其他好文 时间:
2018-12-27 15:28:15
阅读次数:
341
shuffle阶段其实就是多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。 Map端: 1、在map端首先接触的是InputSplit,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束 ...
分类:
其他好文 时间:
2018-12-21 15:24:10
阅读次数:
212