本Hadoop与HBase集群有1台NameNode, 7台DataNode
1. /etc/hostname文件
NameNode:
node1
DataNode 1:
node2
DataNode 2:
node3
.......
DataNode 7:
node8
2. /etc/hosts文件
N...
分类:
其他好文 时间:
2014-05-10 04:55:08
阅读次数:
386
一、 概念知识介绍
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行 处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。
Hadoop MapReduce基于“分而治之”的思想,将计算任务...
分类:
其他好文 时间:
2014-05-10 04:39:09
阅读次数:
570
声明: 若要转载, 请标明出处.
前提: 在对于大量的数据导入到HBase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入HBase中.
引用:
一、这种方式有很多的优点:
1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk...
分类:
其他好文 时间:
2014-05-10 04:33:38
阅读次数:
513
1. Hadoop中遇到的问题
以前所遇到的问题由于没有记录,所以忘了
(1)NameNode没有启动成功, 是由于你对HDFS多次格式化,导致datanode中与namenode中的VERSION文件中的namespaceID不一致(对于NameNode节点,该文件位于hdfs-site配置文件中dfs.name.dir参数所指定的路径下的current文件夹中, 对于DataNode节点...
分类:
其他好文 时间:
2014-05-10 04:28:25
阅读次数:
475
HBase是一个类Bigtable系统,按照Google的论文对
Bigtable的定义是“一种稀疏的,分布式的,持久的多为维度的有序Map。这个Map由row key,column
key和timestamp做为索引,Map中的值是连续的byte数组”。HBase的多维度,包括table和colu...
分类:
其他好文 时间:
2014-05-10 00:30:36
阅读次数:
357
搭建hadoop集群的时候一定会用到的就是SSH免密码登录[hadoop@hadoop1 ~]$
ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to
save the key (/home/ha...
分类:
系统相关 时间:
2014-05-09 23:10:11
阅读次数:
471
spark shuffle流程分析
回到ShuffleMapTask.runTask函数
现在回到ShuffleMapTask.runTask函数中:
overridedef runTask(context:TaskContext):
MapStatus = {
首先得到要reduce的task的个数。
valnumOutputSplits=
dep.partitioner.num...
分类:
其他好文 时间:
2014-05-09 22:58:33
阅读次数:
574
很多人在学习Nutch、Hadoop或者熟悉Linux操作系统时都会选择在VMWare上安装Linux虚拟机,而又往往不想分配给Linux虚拟机足够大的硬盘空间,这就容易导致使用Linux一段时间后,发现虚拟机上的硬盘空间不够了,此时怎么解决?有的人直接选择了重新安装Linux虚拟机,但是下一次硬盘又不够了呢,还要重新安装操作系统吗,那再下一次呢?这种方法势必会进入一个重复无聊的过程,除了增加安装...
分类:
系统相关 时间:
2014-05-09 21:52:40
阅读次数:
526
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:
Possible error: Out of memory due to hash maps used in map-side aggregation.
Solution: Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try set...
分类:
其他好文 时间:
2014-05-09 21:08:27
阅读次数:
366
目的
这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器,如他们的应用能适时被分配限制的容量。
概述
CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。
传统上,每一个组织都会有它自己的私有电脑资源,在顶峰或接近顶峰状态有充足的容量来面对组织的SLA...
分类:
其他好文 时间:
2014-05-09 13:59:54
阅读次数:
424