在MapReduce执行过程中,特别是Shuffle阶段,尽量使用内存缓冲区存储数据,减少磁盘溢写次数;同时在作业执行过程中增加并行度,都能够显著提高系统性能,这也是配置优化的一个重要依据。下面分别介绍I/O属性和MapReduce属性这两个类的部分属性,并指明其优化方向。1 I/O属性类的优化I/...
分类:
其他好文 时间:
2015-05-07 12:05:37
阅读次数:
129
分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发...
分类:
其他好文 时间:
2015-05-06 14:51:36
阅读次数:
174
HBase基础知识 HBase - Hadoop Database,是一个高可靠,高性能,面向列*,可伸缩的分布式存储系统。 利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理...
分类:
其他好文 时间:
2015-04-23 01:57:01
阅读次数:
141
最近学习了hadoop这个框架,把自己的理解总结如下:
1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行,tasktracker同时向jobtracker返回任务运行结果。
jobtracker对作业的输入数据进行分片,然后为每个分片创建一个map任务,同时创建一定数量的reduce任务,并指派空闲的tasktracker来执行这些任务。
tasktr...
分类:
其他好文 时间:
2015-04-13 11:00:17
阅读次数:
113
如果Hadoop命令是以类名作为第一个参数,它就会启动一个JVM来运行这个类。使用命令比直接使用Java更方便,因为前者把类的路径(及其依赖关系)加入Hadoop的库中,并获得Hadoop的配置。要添加应用程序类的路径,我们需要定义一个HADOOP_CLASSPATH环境变量,Hadoop脚本会来执行相关操作。
注意:以本地(独立)模式运行时,本书所有程序希望都以这种方式来设置HADOOP_CL...
分类:
编程语言 时间:
2015-04-08 10:58:23
阅读次数:
186
一、新建文本文件wordcount.txt,并上传至hdfs服务器上
[hadoop@cloud01 HDFSdemo]$ hadoop fs -cat /wc/wordcount.txt
hello world
hello China
hello wenjie
hello USA
hello China
hello China
hello Japan
[hadoop@c...
分类:
其他好文 时间:
2015-04-04 00:02:00
阅读次数:
314
Tachyon是什么? Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和Apache Spark等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集...
分类:
其他好文 时间:
2015-04-03 15:15:09
阅读次数:
196
MapReduce是Hadoop中的完成数据计算任务的核心框架1. MapReduce 组成实体 (1)Client节点:此节点上运行MapReduce程序和JobClient实例对象,负责提交MapReduce作业。 (2)JobTracker:协调调度,主控节点,一个Hadoop集群仅有一个.....
分类:
其他好文 时间:
2015-03-30 20:52:21
阅读次数:
127
MultiPleOutputs原理
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如part-(m|r)-00000之类,但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR
job运行之后,用脚本对目录下的数据...
分类:
其他好文 时间:
2015-03-30 18:53:36
阅读次数:
172
多种自定义文件格式的文件输入处理
MultipleInputs可以让MR支持多种输入格式
比如我们有两种文件格式,那么我们就要有两套Record Class,RecordReader和InputFormat
InputFormat(extends FileInputFormat)--->RecordReader(extends RecordReader)--->RecordClass(imp...
分类:
其他好文 时间:
2015-03-30 09:34:13
阅读次数:
148