最新的hadoop2.5 安装目录做了一定修改,安装变得稍微简单一点
首先安装准备工具
$ sudo apt-get install ssh
$ sudo apt-get install rsync
配置ssh
$ ssh localhostIf you cannot ssh to localhost without a passphrase, execute the...
分类:
其他好文 时间:
2014-09-10 19:34:21
阅读次数:
201
MapReduce工作原理图文详解1.Map-Reduce 工作机制剖析图:1.首先,第一步,我们先编写好我们的map-reduce程序,然后在一个client 节点里面进行提交.(一般来说可以在Hadoop集群里里面的任意一个节点进行,只要该节点装了Hadoop并且连入了Hadoop集群)2.jo...
分类:
其他好文 时间:
2014-09-10 19:28:40
阅读次数:
426
1.首先安装JDK,必须是sun公司的jdk,最好1.6版本以上。最后java–version查看成功与否。注意配置/etc/profile文件,在其后面加上下面几句:exportJAVA_HOME=/usr/local/jdk1.6.0_17exportPATH=$JAVA_HOME/bin:$J...
分类:
其他好文 时间:
2014-09-10 19:24:20
阅读次数:
299
一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模.....
分类:
其他好文 时间:
2014-09-10 19:12:50
阅读次数:
311
首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访...
分类:
其他好文 时间:
2014-09-10 17:58:21
阅读次数:
195
前言对技术,我还是抱有敬畏之心的。Hadoop概述Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具。基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车:GFS,mapreduce,Bigtable开始了...
分类:
其他好文 时间:
2014-09-10 13:52:40
阅读次数:
298
启动并查看集群的状况 第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述: 启动之后在Master这台机器上使用jps命令,可以看到如下进程信息: 在Slave1 和Slave2上使用jps会看到如下进程信息:...
分类:
其他好文 时间:
2014-09-10 11:00:41
阅读次数:
345
启动并查看集群的状况
第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述:
启动之后在Master这台机器上使用jps命令,可以看到如下进程信息:
在Slave1 和Slave2上使用jps会看到如下进程信息:
第二步:启动Spark集群
在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin...
分类:
其他好文 时间:
2014-09-10 10:55:20
阅读次数:
225
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。尝试了多种方法终于恢复,原因还在分析中。...
分类:
其他好文 时间:
2014-09-10 10:54:10
阅读次数:
490
1. Blocks(块)
硬盘上有块,代表能够读取和写入的最小的data单位,通常是512字节。
基于单硬盘的文件系统也有块的概念,通常是把硬盘上的一组块集合在一起成为一个块,一般有几KB大小。
这些对于文件系统的使用者都是透明的,使用者只知道往硬盘上写了一定大小的文件,或从硬盘上读了一定大小的文件。当然有些维护命令,比如df和fsck,就是在块级上的操作。
HDFS也有块(blo...
分类:
其他好文 时间:
2014-09-10 10:53:00
阅读次数:
312