hadoop在虚拟机上(远程连接也是一样只需要知道master的ip和core-site.xml配置即可。 Vmware上搭建了hadoop分布式平台: 192.168.11.134 master
192.168.11.135 slave1
192.168.11.136 slave2 core-si...
1.Hadoop中为什么要配置免密码登录最近在学习Hadoop,在集群中,Hadoop控制脚本依赖SSH来执行针对整个集群的操作。例如,某个脚本能够终止并重启集群中的所有守护进程。所以,需要安装SSH,但是,SSH远程登陆的时候,需要密码验证,集群中数千台计算机,数千台计算机都需要手工输入密码,这是...
分类:
其他好文 时间:
2014-11-30 20:00:08
阅读次数:
329
1.部署环境系统:CentOS6.3需要安装jdk.JDK的RPM下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htmlhadoop手册地址:http://hadoop.apache.org/docs/r1.2.1/index.html关闭iptables和selinux/etc/init.d/iptablesstop
chkconfigipta..
分类:
其他好文 时间:
2014-11-26 06:52:42
阅读次数:
187
1.部署环境系统:CentOS6.3需要安装jdk.JDK的RPM下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htmlhadoop手册地址:http://hadoop.apache.org/docs/r1.2.1/index.html关闭iptables和selinux/etc/init.d/iptablesstop
chkconfigipta..
分类:
其他好文 时间:
2014-11-26 06:50:52
阅读次数:
261
Hadoop分布式文件系统分为三部分:ClientNode,NameNode,DataNode(n个),之间通过TCP/IP进行通信。
CN:1.提供给客户接口,向NN发送读写等命令
2.根据NN提供的信息,向多个DN中写入,或从中读取。
NN:1.管理文件系统的名字空间
2.管理CN对文件的访问
DN:负责管理节点的文件存储
Operation:
Read:1.CN向NN发送读取文...
分类:
其他好文 时间:
2014-11-21 12:45:02
阅读次数:
225
整个教程分为这样5个部分来说:1)在Windows下安装虚拟机Vmware,并新建一个虚拟机装好centos系统;2)centos下设置ssh服务无密码登录;3)centos下安装jdk,并配置环境变量;4)centos下安装hadoop,并配置文件;5)windows下安装jdk和eclipse,并将eclipse与centos下的hadoop连接。可以说这5个部分每一个都很重要,尤其是第4)步。下面我们就详细说一下每一步该怎么做。...
分类:
系统相关 时间:
2014-11-18 16:07:11
阅读次数:
350
MapReduce五大过程已经分析过半了,上次分析完Map的过程,着实花费了我的很多时间,不过收获很大,值得了额,这次用同样的方法分析完了Reduce的过程,也算是彻底摸透了MapReduce思想的2个最最重要的思想了吧。好,废话不多,切入正题,在学习Reduce过程分析的之前,我特意查了书籍上或网络上相关的资料,我发现很大都是大同小异,缺乏对于源码的参照分析,所以我个人认为,我了可以在某些细节上...
分类:
其他好文 时间:
2014-11-18 13:35:10
阅读次数:
172
VMware中创建多台centos虚拟机,搭建安装运行Hadoop的基础环境。
分类:
其他好文 时间:
2014-11-16 13:16:55
阅读次数:
255
上篇我刚刚学习完,Spilt的过程,还算比较简单的了,接下来学习的就是Map操作的过程了,Map和Reduce一样,是整个MapReduce的重要内容,所以,这一篇,我会好好的讲讲里面的内部实现过程。首先要说,MapTask,分为4种,可能这一点上有人就可能知道了,分别是Job-setup Task,Job-cleanup Task,Task-cleanup和Map Task。前面3个都是辅助性质...
分类:
其他好文 时间:
2014-11-15 11:33:03
阅读次数:
307
一:起因
(1)学习IT的人,不论是写前端还是后台;有时候需要对数据进行清洗处理,例如,数据库日志分析。
(2)处理数据的大小由MB 到 GB,在到TB,最后导致处理的每一个文件都超过java jvm初始的heap
(3)对于单个文件比较小的,并行要求不高的数据,我们可以通过更改JVM的初始参数进行解决 —— 但是这并不是根本的解决办法。
(4)根本的解决办法是hadoop分布式系统下的M...
分类:
编程语言 时间:
2014-11-14 15:41:19
阅读次数:
201