介绍:<!--more--> HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 设计原理 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 ...
分类:
其他好文 时间:
2019-09-14 19:38:43
阅读次数:
162
1、hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2、explain 显示执行计划 3、设置本地运行模式 set hive.exec.mode.local.auto = true hive.exec.mode.loc ...
分类:
其他好文 时间:
2019-09-14 10:20:34
阅读次数:
98
1.hadoop1.x和hadoop2.x区别 2.组件介绍 HDFS架构概述1)NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.2)DataNode(dn): 在本地文件系统存储文件块数 ...
分类:
其他好文 时间:
2019-09-13 15:50:23
阅读次数:
112
Hive数据导入方式,Hive数据导出方式。hive,hdfs数据
分类:
其他好文 时间:
2019-09-13 11:32:35
阅读次数:
123
一、概要 这篇文章,给大家聊聊分布式文件系统HDFS在大量客户端并发写数据时,如何进行性能优化? 二、背景引入 先引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,这个事儿能成吗? 明显不可以接受啊,因为HDFS上的文件是不允许并发写的,比如并发的追加一些数据什么。 ...
分类:
编程语言 时间:
2019-09-12 16:21:02
阅读次数:
80
一、前提条件 安装了Zookeeper、Hadoop HDFS HA 二、安装Mysql 因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库; 三、Hive安装 启动hive 如果能正常的显示登录到hive的命令行下,就表示安装成功了; ...
分类:
数据库 时间:
2019-09-11 23:57:51
阅读次数:
191
HDFS的架构和设计要点 转 大数据之路 发布于 2012/10/11 23:00 字数 4487 阅读 495 收藏 1 点赞 0 评论 0 大数据之路 发布于 2012/10/11 23:00 字数 4487 阅读 495 收藏 1 点赞 0 评论 0 撸了今年阿里、头条和美团的面试,我有一个重 ...
分类:
其他好文 时间:
2019-09-10 13:26:07
阅读次数:
86
完全分布式 1.配置文件 [core-site.xml] hdfs 地址 fs.defaultFS=hdfs://s129:8020/ [hdfs-site.xml] 副本 replication=1 //伪分布 replication=3 //完全分布 [mapred-site.xml] yarn ...
分类:
其他好文 时间:
2019-09-10 01:16:56
阅读次数:
117
HA概述所谓HA(HighAvailable),即高可用(7*24小时不中断服务)实现高可用最关键的策略是消除单点故障,HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HAHadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启NameNo
分类:
其他好文 时间:
2019-09-09 00:01:51
阅读次数:
119
我们在微职位课程DataNode心跳机制的作用讲解了DataNode的三个作用: 以上第1和第2个动作都是在DataNode启动的时候发生的,register的步骤主要功能是使得这个DataNode成为HDFS集群中的成员,DataNode注册成功后,DataNode会将它管理的所有的数据块信息,通 ...
分类:
其他好文 时间:
2019-09-08 20:31:58
阅读次数:
165