在文章《Ubuntu和CentOS中分布式配置Hadoop-2.2.0》介绍了hadoop 2.2.0最基本的配置。hadoop 2.2.0中提供了HA的功能,本文在前文的基础上介绍hadoop 2.2.0HA的配置。
说明:
下文中的两台namenode机器名分别是namenode1和namenode2.其中namenode1为active node,namenode2为standby na...
分类:
其他好文 时间:
2014-08-01 19:48:22
阅读次数:
243
RPC的全称为远程过程调用。由于Hadoop是一个分布式系统,因此底层的通信库也就必须实现RPC的基础功能。Hadoop RPC 在整个hadoop中扮演着底层通信模块的角色,举例而言NN和DN、AM和RM之间的通信和协调都是Hadoop RPC来完成的。熟悉使用Hadoop RPC可以加深我们对H...
分类:
其他好文 时间:
2014-08-01 18:33:52
阅读次数:
254
本章内容提要
● 理解企业级应用的安全顾虑
● 理解Hadoop尚未为企业级应用提供的安全机制
● 考察用于构建企业级安全解决方案的方法
第10章讨论了Hadoop安全性以及Hadoop中用于提供安全控制的机制。当构建企业级安全解决方案(它可能会围绕着与Hadoop数据集交互的许多应用程序和企业级服务)时,保证Hadoop自身的安全仅仅是安全解决方案的...
分类:
其他好文 时间:
2014-07-29 13:04:37
阅读次数:
488
mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段。在要求统计指定文件中的所有单词的出现次数时,
map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中)
reduce阶段是把每个单词出现的频率统计出来重新写回去。
如代码:
package com.clq.hadoop2;
import org.apa...
分类:
其他好文 时间:
2014-07-23 17:16:02
阅读次数:
199
Hadoop 1.x版本不支持FileSystem的append操作,而需要升级到Hadoop 2.x,否则会报异常:org.apache.hadoop.ipc.RemoteException: java.io.IOException: Append is not supported. Please...
分类:
移动开发 时间:
2014-07-21 09:13:27
阅读次数:
1094
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。...
分类:
其他好文 时间:
2014-07-21 09:03:08
阅读次数:
329
在看hadoop 的二次排序的时候,改写了下, 加了第三个参数, 本来以为是在 public int compareTo(IntPair o) { System.out.println("-----------compareTo"); if (first != o.first...
分类:
其他好文 时间:
2014-07-19 17:10:26
阅读次数:
256
在Hadoop中,有一种处理过程叫Combiner,与Mapper和Reducer在处于同等地位,但其执行的时间介于Mapper和Reducer之间,其实就是Mapper和Reducer的中间处理过程,Mapper的输出是Combiner的输入,Combiner的输出是Reducer的输入。例如.....
分类:
其他好文 时间:
2014-07-16 20:36:31
阅读次数:
185
1、MapReduce理论简介
1.1 MapReduce编程模型
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。
在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job...
分类:
其他好文 时间:
2014-07-16 16:20:31
阅读次数:
326