云智慧(北京)科技有限公司陈鑫NullWritable不想输出的时候,把它当做key。NullWritable是Writable的一个特殊类,序列化的长度为0,实现方法为空实现,不从数据流中读数据,也不写入数据,只充当占位符,如在MapReduce中,如果你不需要使用键或值,你就可以将键或值声明为Null..
分类:
其他好文 时间:
2015-07-07 13:12:43
阅读次数:
114
云智慧(北京)科技有限公司陈鑫写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的。以前还一直纳闷儿为什么有时候是jobClient提交任务,有时是Job...不管API是否更新,下面这些类也还是存在于API中的,经过自己跟踪源码,发现原理还是这些。只不过进行了重新组织..
分类:
其他好文 时间:
2015-07-07 13:11:47
阅读次数:
119
1、archives作用描述: ????Hadoop中DistributedCache方法之一(其他参考文章后面的参考文章)?,作用是?将指定文件分发到各个Task的工作目录下,并对名称后缀为“.jar”、“.zip”,“.tar.gz”、“.tgz”...
分类:
编程语言 时间:
2015-07-03 16:17:55
阅读次数:
247
Zookeeper 简介
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节...
分类:
其他好文 时间:
2015-06-23 21:37:04
阅读次数:
155
文章转载于:http://blog.csdn.net/ipolaris/article/details/8723782Hadoop中Combiner的使用在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Co...
分类:
其他好文 时间:
2015-06-23 19:50:21
阅读次数:
105
目的此文档描写叙述了FairScheduler, Hadoop 的一个可插入式的调度器,同意 YARN 应用在一个大集群中公平地共享资源。简单介绍公平调度是一种分配资源给应用的方法。以致到最后,平均上全部应用获得相等的资源。 Hadoop NextGen 可以调度多种类型的资源。默认的, Fair ...
分类:
其他好文 时间:
2015-06-23 19:33:32
阅读次数:
186
1.Hive
1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。
本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。
hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。...
分类:
其他好文 时间:
2015-06-15 00:18:25
阅读次数:
98
为什么要选择Hive基于Hadoop的大数据的计算/扩展能力
支持SQL like查询语言
统一的元数据管理
简单编程Hive:Hive 可以对数据进行管理和查询。
在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。
本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。
hiv...
分类:
其他好文 时间:
2015-06-09 22:00:08
阅读次数:
122
Yarn是随着hadoop发展而催生的新框架,全称是Yet Another Resource Negotiator,可以翻译为“另一个资源管理器”。yarn取代了以前hadoop中jobtracker(后面简写JT)的角色,因为以前JT的 任务过重,负责任务的调度、跟踪、失败重启等过程,而且只能运行...
分类:
其他好文 时间:
2015-06-09 16:51:17
阅读次数:
3894
Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法 先来先服务(FIFO) Hadoop中默认的调度器FIFO,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。 FIFO比较简单...
分类:
编程语言 时间:
2015-06-08 20:01:41
阅读次数:
157