[TOC]一、HDFS体系组成概述这是一个分布式文件系统,适用于于一次写入多次读取的场景。包含以下角色:NameNode(nn):存储文件的元数据,如文件名、文件目录结构,文件属性等,以及每个文件的块列表和块所在的DataNode等。以及响应客户端对hdfs的读写操作,如创建目录、上传文件等。还有保存读写日志。DataNode(dn):在本地文件系统中存储文件块数据,以及块数据的校验和Second
分类:
其他好文 时间:
2019-10-14 13:04:16
阅读次数:
120
这个很简单的哇~ 格式化namenode之后就会给namenode的ClusterId重新生成,导致与datanode中的ClusterId不一致而无法启动datanode 解决方法: 进入hadoop/dfs/data/current 找到version文件 进入hadoop/dfs/name/c ...
分类:
其他好文 时间:
2019-10-05 18:38:36
阅读次数:
75
HDFS数据清理一些办法: datanode数据做reblance清理临时目录、日志目录文件全量分区表历史分区清理使用lzo,orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bashsource ~/.bash_profile # ...
分类:
其他好文 时间:
2019-09-30 09:32:15
阅读次数:
231
一、先在本地安装jdk 我这里安装的jdk1.8,具体的安装过程这里不作赘述 二、部署安装maven 下载maven安装包,并解压 设置环境变量,MAVEN_HOME=D:\SoftWare\Maven\apache-maven-3.6.1 在path路径添加;%MAVEN_HOME%\bin 打开 ...
海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一、HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息。nameno ...
分类:
其他好文 时间:
2019-09-22 16:41:19
阅读次数:
92
1、什么是分库分表? 在同一个系统(项目)中,把一张数据比较多的表放到不同的集群节点上, 这种模式称之为分库分表。 2、需求 使用mycat实现分库分表(HDFS:namenode datanode secondarynamdenode) 在整个mycat中也会使用到namenode和datanod ...
分类:
其他好文 时间:
2019-09-22 01:42:23
阅读次数:
81
如标题,最近我由于想初始化以下hadoop集群,之后却发现启动集群后所有的DataNode都消失了。 问题查找: 由于时所有的DataNode都出了问题,于是我翻找了以下DataNode的日志(默认在安装下的logs文件里): 看出来可能是因为namenode的clusterID与datanode的 ...
分类:
其他好文 时间:
2019-09-21 23:17:49
阅读次数:
106
mycat分表以及细化表控制schema.xmlschema部分加入<tablename="admin"primaryKey="id"dataNode="lbd_dn"/>可具体指定对应表的访问mycat1.6以上server.xml的user部分加入权限管理可细化表的权限<privilegescheck="true"&
分类:
其他好文 时间:
2019-09-19 16:10:33
阅读次数:
115
其中的fsimage 称为时点备份,又叫磁盘镜像快照,这个是NameNode的一个 持久化的方式之一:缺点,在内存数据序列化的时候比较慢 具体的过程:因为我们所知道的NameNode一般是存储在内存中的,并没有和磁盘进行交互,这和redis这类的非关系型数据库差不多,但是内存中的数据总是没有持久化的 ...
分类:
其他好文 时间:
2019-09-17 12:27:06
阅读次数:
106
hadoop 分布式计算框架。 common // hdfs //存储 mapreduce //MR,编程模型. yarn //资源调度. 集群部署 1.standard alone/local nothing. 2.伪分布式 一台机器. NN //目录 DN //DataNode,block(12 ...
分类:
其他好文 时间:
2019-09-16 23:50:45
阅读次数:
134