OutputFormat 主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入特定格式的文件中。 本文将介绍 Hadoop 如何设计 OutputFormat 接口 , 以及一些常用的OutputFormat 实现。1.旧版 API 的 OutputFormat 解析如图所示,...
分类:
其他好文 时间:
2015-03-21 21:16:56
阅读次数:
200
安装环境:ubuntu kylin 14.04 haoop-1.2.1 hadoop下载地址:http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/1.安装JDK,这里要注意的是:要想在hadoop中使用,则需要在hadoop下输入命令:sou.....
分类:
系统相关 时间:
2015-03-21 19:53:21
阅读次数:
439
1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce.....
分类:
其他好文 时间:
2015-03-17 19:51:58
阅读次数:
146
RawLocalFileSystem是hadoop中实现的本地文件系统,在该类中与文件元数据和目录相关的操作,都是通过适配方式适配到java.io.File的对应API来完成的,适配过程简单,代码清晰。下面主要以mkDirs()方法为例来窥探该类的实现和一些独到之处。/***************...
分类:
其他好文 时间:
2015-03-13 18:20:50
阅读次数:
190
Hadoop中有一套Writable实现可以满足大部分需求,但是在有些情况下,我们需要根据自己的需要构造一个新的实现,有了定制的Writable,我们就可以完全控制二进制表示和排序顺序。为了演示如何新建一个定制的writable类型,我们需要写一个表示一对字符串的实现:blic class Text...
分类:
其他好文 时间:
2015-03-12 20:43:41
阅读次数:
186
问题导读
1.hive除了包含用户接口、元数据,还包含哪些内容?
2.hive包含哪些操作?
3.hive数据能否被修改?
4.hive优化有哪些常用方法?
摘要:
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi...
分类:
其他好文 时间:
2015-03-12 17:21:26
阅读次数:
207
问题描述: 在hadoop中处理多个文件,其中每个文件一个map。 我使用的方法为生成一个文件,文件中包含所有要压缩的文件在HDFS上的完整路径。每个map 任务获得一个路径名作为输入。 在eclipse中调试时,map中处理hdfs上的文件用到的FileSystem对象为整个class...
分类:
编程语言 时间:
2015-03-12 11:09:05
阅读次数:
152
问题描述: 在hadoop中运行应用,出现了running beyond virtual memory错误。提示如下:Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond ...
分类:
其他好文 时间:
2015-03-12 11:04:26
阅读次数:
163
本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-class.html,转载请注明源地址。hadoop中自带的org.apache.hadoop.io包中有广泛的writable类可供选择,它们形成下图所示的层次结构:java基本类型的...
分类:
其他好文 时间:
2015-03-12 09:49:39
阅读次数:
181