本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-interface.html,转载请注明源地址。简介序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。通讯格式需求hadoop在节点间的内部通讯使...
分类:
其他好文 时间:
2015-03-11 16:31:00
阅读次数:
158
转载自:如何在hadoop中控制map的个数hadoop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数...
分类:
其他好文 时间:
2015-03-11 12:46:43
阅读次数:
148
hadoop:数据流转图(基于hadoop 0.18.3):通过一个最简单的例子来说明hadoop中的数据流转。hadoop:数据流转图(基于hadoop 0.18.3):这里使用一个例子说明hadoop中的数据流转过程,这个例子是统计一些文章中词汇的总数。首先files表示这些需要统计词汇的文章。...
分类:
其他好文 时间:
2015-03-09 22:19:00
阅读次数:
270
Hadoop中决定map个数的的因素有几个,由于版本的不同,决定因素也不一样,掌握这些因素对了解hadoop分片的划分有很大帮助,并且对优化hadoop性能也很有大的益处。旧API中getSplits方法: 1 public InputSplit[] getSplits(JobConf job, i...
分类:
其他好文 时间:
2015-03-09 00:17:56
阅读次数:
345
今天重新开一个账户配置hadoop,可是都完成了,运行时,出现找不到java的情况,我的java是在.zshrc中设置的,export JAVA_HOME=/usr/lib/jvm/java,在原来都是可以得,但是这次怎么都不行,后来就在网上找到了解决方法,进入hadoop/libexec/hado...
分类:
编程语言 时间:
2015-03-06 20:31:41
阅读次数:
169
如何有效管理应用的大量配置目前现在应用的大量配置信息全部保存在xml文档中,方便修改和读取,Hadoop同样采取这样的方式。那么让我们来看看Hadoop是如何管理自己的配置信息的。Hadoop中管理配置信息的类为:configuration类实现了iterable接口,该接口返回一个iterator...
分类:
其他好文 时间:
2015-03-05 00:09:27
阅读次数:
156
1、Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中...
分类:
其他好文 时间:
2015-02-28 16:05:57
阅读次数:
195
6、HDFS API详解 Hadoop中关于文件操作类疾病上全部在“org.apache.hadoop.fs”包中,这些API能够支持的操作包含:打开文件、读写文件、删除文件等。 Hadoop类库中最终面...
分类:
其他好文 时间:
2015-02-27 21:28:45
阅读次数:
263
一、Hadoop中的计数器计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容:hello youhello me 它被WordCount.....
分类:
其他好文 时间:
2015-02-22 18:28:57
阅读次数:
183
首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
分类:
其他好文 时间:
2015-02-19 17:28:09
阅读次数:
256