Hadoop简介:
分布式、可扩展、可靠的、分布式计算框架。
组件:
common:公共组件
hdfs:分布式文件系统
yarn:运行环境
mapreduce:mr计算模型
生态系统:
Ambari:操作界面
avro:通用的序列化机制、与语言无关
cassandra:数据库
chukwa:数据收集系统
hbase:分布式大表数据库
hive:基于sql的分析系统
matout:机器学习算法库
pi...
分类:
其他好文 时间:
2015-04-05 11:59:31
阅读次数:
234
Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 3-1所示。
文件系统
URI
方案
Java实
现(全部在
org.apache.hadoop)
描述
Local
...
分类:
其他好文 时间:
2015-04-03 11:20:26
阅读次数:
116
我们可以把zookeeper看做是一个高可用的分布式文件系统。借助于zookeeper的特性,我们可以很方便的实现分布式的一些服务
其中典型的应用场景有:服务配置、分布式锁和分布式队列。
本节,我会讲解分布式锁的实现。
我们借助于zk的短暂有序节点(EPHEMERAL_SEQUENTIAL)和zk的消息通知机制实现分布式锁。
分布式锁的一般实现算法是:
1、在锁znode节点下创建名为l...
分类:
其他好文 时间:
2015-04-02 11:47:16
阅读次数:
139
前言– 追寻大牛的足迹,无处不在的“性能”问题。 最近在读郭欣大牛的《构建高性能Web站点》,读完收益颇多。作者从HTTP、多级缓存、服务器并发策略、数据库、负载均衡、分布式文件系统多个方面娓娓道来,洋洋洒洒,甚是精彩,想来让人心旷神怡。 但“纸上得来终觉浅,绝知此事要躬行”,要消化本书的内容,绝....
分类:
Web程序 时间:
2015-04-01 00:10:13
阅读次数:
121
1)NameNode、DataNode和Client
NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元,它将Block存储在...
分类:
其他好文 时间:
2015-03-31 14:50:15
阅读次数:
184
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的...
分类:
数据库 时间:
2015-03-29 16:25:54
阅读次数:
301
Hadoop配置主要事项
1、 保证Master和Slave能够ping通;
2、 配置/etc/hosts文件;
3、 能够ssh无密码切换各台主机;
4、 安装sun公司的jdk,在/etc/profile中设置好环境变量;
5、 下载Hadoop,安装、配置、搭建Hadoop集群;
1.Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。...
分类:
其他好文 时间:
2015-03-28 17:25:24
阅读次数:
173
Hadoop简介:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS。HDFS有着高容错性的特点,...
分类:
其他好文 时间:
2015-03-18 12:05:22
阅读次数:
142
Hadoop 由两部分组成,分别是分布式文件系统和分布式计算框架 MapReduce。 其中,分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。本文主要涉及 MapReduce,但考虑到它的一些功能跟底层...
分类:
其他好文 时间:
2015-03-17 23:06:37
阅读次数:
196
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如...
分类:
其他好文 时间:
2015-03-17 21:50:22
阅读次数:
155