1)NameNode、DataNode和Client
NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元,它将Block存储在...
分类:
其他好文 时间:
2015-03-31 14:50:15
阅读次数:
184
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的...
分类:
数据库 时间:
2015-03-29 16:25:54
阅读次数:
301
Hadoop配置主要事项
1、 保证Master和Slave能够ping通;
2、 配置/etc/hosts文件;
3、 能够ssh无密码切换各台主机;
4、 安装sun公司的jdk,在/etc/profile中设置好环境变量;
5、 下载Hadoop,安装、配置、搭建Hadoop集群;
1.Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。...
分类:
其他好文 时间:
2015-03-28 17:25:24
阅读次数:
173
Hadoop简介:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS。HDFS有着高容错性的特点,...
分类:
其他好文 时间:
2015-03-18 12:05:22
阅读次数:
142
Hadoop 由两部分组成,分别是分布式文件系统和分布式计算框架 MapReduce。 其中,分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。本文主要涉及 MapReduce,但考虑到它的一些功能跟底层...
分类:
其他好文 时间:
2015-03-17 23:06:37
阅读次数:
196
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如...
分类:
其他好文 时间:
2015-03-17 21:50:22
阅读次数:
155
Hadoop的主核心有2部分:1,HDFS2, MapReduce首先:HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large...
分类:
其他好文 时间:
2015-03-14 09:30:46
阅读次数:
167
对于分布式文件系统来说,为了保证数据的高可用性和系统容错能力,往往会把同一数据块在多个节点上进行备份,那么如何分配这些复制数据的位置,不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前,先简单了解一些其它文件系统的放置策略:1. Lustre——一致性哈希环对于不同的数据备份,需要放到不同...
分类:
其他好文 时间:
2015-03-11 01:56:10
阅读次数:
114
############################################网络架构########################################两台服务器M1M2M1为GlusterFS主服务器,ip为192.168.1.138M2为GlusterFS热备服务器,ip为192.168.1.139M1也是client客户端(一)IP设置略########################################..
分类:
其他好文 时间:
2015-03-10 19:50:26
阅读次数:
919
############################################网络架构########################################两台服务器M1M2M1为GlusterFS主服务器,ip为192.168.1.138M2为GlusterFS热备服务器,ip为192.168.1.139M1也是client客户端(一)IP设置略########################################..
分类:
其他好文 时间:
2015-03-10 19:49:11
阅读次数:
252