转自:http://blog.csdn.net/iAm3331 什么是HBase?HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zooke...
分类:
数据库 时间:
2015-04-06 21:48:24
阅读次数:
387
core-site.xml -------指定NameNode主机名与端口号 fs.default.name hdfs://localhost:9000 hadoop.tmp.dir /opt/data/tmp hdfs-site.xml ...
分类:
其他好文 时间:
2015-04-06 21:35:49
阅读次数:
146
1. MapReduce -映射、化简编程模型运行原理:2. Hadoop V1 中的 MapReduce 的实现Hadoop 1.0 指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapRedu...
分类:
其他好文 时间:
2015-04-06 17:05:02
阅读次数:
217
剖析Mapreduce作业运行机制:原理如下图:原理图的解释的可以分为以下几个部分1、客户端提交一个mapreduce的jar包给JobClient2、JocClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)3、JobClient将jar包写入到HDFS当中...
分类:
其他好文 时间:
2015-04-06 15:34:26
阅读次数:
134
0. 关于大数据1. Hadoop:事实上的大数据标准3. Hadoop 体系结构HDFS: Hadoop 分布式文件系统HDFS 有着高容错性特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce: Hadoop 编程模型,用于大规模数据集(大于1TB)的并行计...
分类:
其他好文 时间:
2015-04-06 11:23:12
阅读次数:
165
HDFS是Hadoop Distribute File System的简称,也是Hadoop的一个分布四文件系统一、HDFS的主要设计理念 1、存储超大文件 这里的 “超大文件” 是指几百MB 、GB甚至 TB级别的文件。 2、最高效的访问模式是一次写入、多次读取(流式数据访问) H...
分类:
其他好文 时间:
2015-04-06 00:42:16
阅读次数:
225
Hadoop简介:
分布式、可扩展、可靠的、分布式计算框架。
组件:
common:公共组件
hdfs:分布式文件系统
yarn:运行环境
mapreduce:mr计算模型
生态系统:
Ambari:操作界面
avro:通用的序列化机制、与语言无关
cassandra:数据库
chukwa:数据收集系统
hbase:分布式大表数据库
hive:基于sql的分析系统
matout:机器学习算法库
pi...
分类:
其他好文 时间:
2015-04-05 11:59:31
阅读次数:
234
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。所以,如果有10million个文件,每一个文件对应一个.....
分类:
其他好文 时间:
2015-04-04 11:53:57
阅读次数:
281
访问hdfs上的文件并写出到输出台 /** * 访问hdfs上的文件并写出到输出台 * @param args */ public static void main(String[] args) { try { //将hdfs格式...
分类:
编程语言 时间:
2015-04-04 09:05:37
阅读次数:
143
hadoop2.5.2学习及实践笔记(五)—— HDFS shell命令行常见操作
分类:
系统相关 时间:
2015-04-04 01:11:28
阅读次数:
260