前言在Hadoop中,所有的元数据的保存都是在namenode节点之中,每次重新启动整个集群,Hadoop都需要从这些持久化了的文件中恢复数据到内存中,然后通过镜像和编辑日志文件进行定期的扫描与合并,ok,这些稍微了解Hadoop的人应该都知道,这不就是SecondNameNode干的事情嘛,但是很多人只是了解此机制的表象,内部的一些实现机理估计不是每个人都又去深究过,你能想象在写入编辑日志的过程...
分类:
其他好文 时间:
2015-08-15 18:21:07
阅读次数:
132
数据输入格式数据输入格式(InputFormat)用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。Hadoop中最常用的数据输入格式包括:TextInputFormat和KeyVal...
分类:
其他好文 时间:
2015-08-15 13:14:57
阅读次数:
291
转载自http://www.csdn.net/article/2010-11-28/282614数据模型HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只...
分类:
数据库 时间:
2015-08-13 19:48:55
阅读次数:
130
Hadoop中HDFS的存储机制HDFS(Hadoop Distributed File System)是Hadoop分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。下面我们首先介绍HDFS中的一些基础概念,然后介绍HDFS中读写操作的过程,最后分析了HDFS的优缺点。...
分类:
其他好文 时间:
2015-08-09 18:26:44
阅读次数:
182
1.Hive 官方网址:http://hive.apache.org/ Ø 什么是Hive?(***了解***) l Hive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据...
分类:
其他好文 时间:
2015-08-08 12:03:16
阅读次数:
296
大家都知道hadoop中自带了很多例子,那么怎么用呢,今天主要测试下hadoop中的wordcount程序jar包:
1、首先启动hadoop
2、准备数据:vim words, 写入
hello tom
hello jerry
hello kitty
hello tom
hello bbb
3、将数据上传到HDFS...
分类:
其他好文 时间:
2015-07-29 17:21:21
阅读次数:
155
用户身份 在1.0.4这个版本的Hadoop中,客户端用户身份是通过宿主操作系统给出。对类Unix系统来说, 用户名等于`whoami`; 组列表等于`bash -c groups`。 将来会增加其他的方式来确定用户身份(比如Kerberos、LDA...
分类:
其他好文 时间:
2015-07-16 20:13:09
阅读次数:
355
在NameNode运行期间,HDFS的所有更新操作都是直接写到edits中,久而久之edits文件将会变得很大;虽然这对NameNode运行时候是没有什么影响的,但是我们知道当NameNode重启的时候,NameNode先将fsimage里面的所有内容映像到内存中,然后再一条一条地执行edits.....
分类:
其他好文 时间:
2015-07-13 20:21:45
阅读次数:
141
what is hive?
Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据的提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言,称为 HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu...
分类:
其他好文 时间:
2015-07-13 18:44:28
阅读次数:
287
主要介绍在Centos 中如何安装R 语言以及如何集成Rhive 到hadoop 中。...
分类:
其他好文 时间:
2015-07-10 11:23:43
阅读次数:
120