1. LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类,这些类实现了WritableComparable接口,都能够被串行化从而便于在分布式环境中进行数据交换,以及进行大小比较。你可以将它们分别视为long,int,Stri... ...
分类:
其他好文 时间:
2017-07-15 14:58:56
阅读次数:
154
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序也需要借助YARN ...
分类:
其他好文 时间:
2017-07-12 13:48:51
阅读次数:
223
一、基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceManager负责整个系统的资源管 ...
分类:
其他好文 时间:
2017-07-10 14:26:27
阅读次数:
254
简单介绍 此文档描写叙述了一个超级用户怎样在安全的方式下以还有一用户的名义提交作业或訪问hdfs。 Use Case 下一部分描写叙述的的代码演示样例对此用户用例是可用的。 一个username为'super'的超级用户想要以还有一用户joe的名义提交作业或訪问hdfs。超级用户有kerberos证 ...
分类:
其他好文 时间:
2017-06-29 13:28:34
阅读次数:
133
一、用途 边数据是作业所需的额外的只读数据,通常用来辅助主数据集; 二、方法 1、利用Configuration类来配置,利用setter()和getter()可方便的使用,方便存储一些基本的类型; 2、分布式缓存: 相比这下,分布式缓存更灵活,它能在任务运行过程中及时地将文件和存档复制到任务节点以 ...
分类:
其他好文 时间:
2017-06-28 21:58:25
阅读次数:
253
一、输入格式 1、输入分片split 一个分片对应一个map任务; 一个分片包含一个表(整个文件)上的若干行,而一条记录(单行)对应一行; 分片包含一个以字节为单位的长度 和 一组存储位置,分片不包含实际的数据; map处理时会用分片的大小来排序,优先处理最大的分片; hadoop中Java定义的分 ...
分类:
其他好文 时间:
2017-06-27 23:27:17
阅读次数:
292
ZooKeeper为分布式应用系统提供了高性能服务,在许多常见的集群服务中被广泛使用,最常见的当属HBase集群了,其他的还有Solr集群。Hadoop-2中的HA自己主动故障转移等。本文主要介绍了为HBase集群部署ZooKeeper集群的过程。并说明了部署过程中遇到的问题。 默认情况下,由HBa ...
分类:
其他好文 时间:
2017-06-26 20:10:39
阅读次数:
276
我的Hadoop版本是hadoop-2.7.3, 我们可以去hadoop官网下载源码hadoop-2.7.3-src,以及编译好的工程文件hadoop-2.7.3, 后者可以直接部署. 前者hadoop-2.7.3-src必须mvn之后才能部署. 我们修改代码必须是在hadoop-2.7.3-src ...
分类:
其他好文 时间:
2017-06-22 20:54:35
阅读次数:
264
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧... ...
分类:
其他好文 时间:
2017-06-22 12:06:28
阅读次数:
195
错误分析: 今天在A程序中生成了数据,然后将A结果数据作为B的输入数据,在查看A结果数据时候,发现有一条数据不符合规则,遂将其删除,删除后执行B程序则报错.尝试打断点,发现程序连map过程都不执行,到了 job.waitForCompletion(true);这一步之后直接就报错了,错误信息为: o ...
分类:
其他好文 时间:
2017-06-21 22:03:32
阅读次数:
459