剖析Mapreduce作业运行机制:原理如下图:原理图的解释的可以分为以下几个部分1、客户端提交一个mapreduce的jar包给JobClient2、JocClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)3、JobClient将jar包写入到HDFS当中...
分类:
其他好文 时间:
2015-04-06 15:34:26
阅读次数:
134
偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为!一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈...
分类:
其他好文 时间:
2015-04-06 11:25:56
阅读次数:
127
HDFS是Hadoop Distribute File System的简称,也是Hadoop的一个分布四文件系统一、HDFS的主要设计理念 1、存储超大文件 这里的 “超大文件” 是指几百MB 、GB甚至 TB级别的文件。 2、最高效的访问模式是一次写入、多次读取(流式数据访问) H...
分类:
其他好文 时间:
2015-04-06 00:42:16
阅读次数:
225
前言:我使用了两台计算机进行集群的配置,如果是单机的话可能会出现部分问题。首先设置两台计算机的主机名 root 权限打开/etc/host文件再设置hostname,root权限打开/etc/hostname文件设置从机设为Slaver.Hadoop1.安装java jdk 并配置环境 cento....
分类:
其他好文 时间:
2015-03-31 00:32:57
阅读次数:
170
配置环境 准备: 三台虚拟机 配置主节点: 1. 查看当前使用网卡 [root@localhost ~]# dmesg | grep -i eth
Bluetooth: BNEP (Ethernet Emulation) ver 1.3
eth0: no IPv6 routers present dmesg是显示开机启动信息...
分类:
系统相关 时间:
2015-03-29 15:15:19
阅读次数:
251
一、Hadoop1.0到2.0的架构变化1、Hadoop2.0由HDFS、MapReduce和YARN三个分支构成2、HDFSNNFederation、HA3、MapReduce运行在YARN上的MR4、YARN资源管理系统二、HDFS2.01、解决HDFS1.0中单点故障和内存受限问题。2、解决单点故障HDFSHA通过主备NameNode解决如果主NameNode发生故..
分类:
其他好文 时间:
2015-03-21 21:29:17
阅读次数:
356
MapReduce作业读取文件Map任务数量由InputSplit决定,InputSplit分片大小默认是HDFS块大小(hadoop1.x=64mb,hadoop2.x是128mb)。例如: MapReduce作业读取HDFS上(hadoop2.x)两个文件,一个是200MB,一个是100MB,....
分类:
其他好文 时间:
2015-03-21 21:09:37
阅读次数:
168
一、背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es。这几样神器的作用就不多作介绍了,自行参考各类百科就行了。我选择这样的方案主要是基于以下考虑: 1、可扩展,虽然一、背景最近由于项目和论文的需要...
分类:
其他好文 时间:
2015-03-19 06:17:22
阅读次数:
110
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1.Apache Hadoop1.1Apache版本衍化截至目前(2012年12月23日)...
分类:
其他好文 时间:
2015-03-18 15:26:47
阅读次数:
187
1.安装:通过yum安装即可,组成KDC。 yum install -y krb5-server krb5-lib krb5-workstation 2.配置:Kerberos的配置文件只有两个。在Hadoop1中创建以下两个文件,并同步/etc/krb5.conf到所有机器。 /var/kerbero...
分类:
其他好文 时间:
2015-03-17 08:16:52
阅读次数:
145