码迷,mamicode.com
首页 >  
搜索关键字:hadoop-mapreduce    ( 502个结果
hadoop mapreduce 端参数优化
在MapReduce执行过程中,特别是Shuffle阶段,尽量使用内存缓冲区存储数据,减少磁盘溢写次数;同时在作业执行过程中增加并行度,都能够显著提高系统性能,这也是配置优化的一个重要依据。下面分别介绍I/O属性和MapReduce属性这两个类的部分属性,并指明其优化方向。1 I/O属性类的优化I/...
分类:其他好文   时间:2015-05-07 12:05:37    阅读次数:129
开源分布式计算系统框架比较
分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发...
分类:其他好文   时间:2015-05-06 14:51:36    阅读次数:174
HBase基础知识
HBase基础知识 HBase - Hadoop Database,是一个高可靠,高性能,面向列*,可伸缩的分布式存储系统。 利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理...
分类:其他好文   时间:2015-04-23 01:57:01    阅读次数:141
Hadoop学习总结
最近学习了hadoop这个框架,把自己的理解总结如下: 1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行,tasktracker同时向jobtracker返回任务运行结果。 jobtracker对作业的输入数据进行分片,然后为每个分片创建一个map任务,同时创建一定数量的reduce任务,并指派空闲的tasktracker来执行这些任务。 tasktr...
分类:其他好文   时间:2015-04-13 11:00:17    阅读次数:113
Java MapReduce详解--(3)
如果Hadoop命令是以类名作为第一个参数,它就会启动一个JVM来运行这个类。使用命令比直接使用Java更方便,因为前者把类的路径(及其依赖关系)加入Hadoop的库中,并获得Hadoop的配置。要添加应用程序类的路径,我们需要定义一个HADOOP_CLASSPATH环境变量,Hadoop脚本会来执行相关操作。 注意:以本地(独立)模式运行时,本书所有程序希望都以这种方式来设置HADOOP_CL...
分类:编程语言   时间:2015-04-08 10:58:23    阅读次数:186
【hadoop】 3002-mapreduce程序统计单词个数示例
一、新建文本文件wordcount.txt,并上传至hdfs服务器上 [hadoop@cloud01 HDFSdemo]$ hadoop fs -cat /wc/wordcount.txt hello world hello China hello wenjie hello USA hello China hello China hello Japan [hadoop@c...
分类:其他好文   时间:2015-04-04 00:02:00    阅读次数:314
高性能、高容错、基于内存的开源分布式存储系统Tachyon的简单介绍
Tachyon是什么? Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和Apache Spark等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集...
分类:其他好文   时间:2015-04-03 15:15:09    阅读次数:196
Hadoop--MapReduce 基本原理
MapReduce是Hadoop中的完成数据计算任务的核心框架1. MapReduce 组成实体 (1)Client节点:此节点上运行MapReduce程序和JobClient实例对象,负责提交MapReduce作业。 (2)JobTracker:协调调度,主控节点,一个Hadoop集群仅有一个.....
分类:其他好文   时间:2015-03-30 20:52:21    阅读次数:127
MapReduce处理输出多文件格式(MultipleOutputs)
MultiPleOutputs原理 MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如part-(m|r)-00000之类,但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR job运行之后,用脚本对目录下的数据...
分类:其他好文   时间:2015-03-30 18:53:36    阅读次数:172
MapReduce对输入多文件的处理2自定义FileInputFormat类
多种自定义文件格式的文件输入处理 MultipleInputs可以让MR支持多种输入格式 比如我们有两种文件格式,那么我们就要有两套Record Class,RecordReader和InputFormat InputFormat(extends FileInputFormat)--->RecordReader(extends RecordReader)--->RecordClass(imp...
分类:其他好文   时间:2015-03-30 09:34:13    阅读次数:148
502条   上一页 1 ... 33 34 35 36 37 ... 51 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!