UCBerkeley研发的Tachyon(超光子['tæki???n],名字要不要这么太嚣张啊:)是一款为各种集群并发计算框架提供内存数据管理的平台,也可以说是一种内存式的文件系统吧。如下图,它就处于这样一个层次:在现有存储系统如HDFS之上,在Spark,MapReduce,Impala等各种计算框架之下。为什么要有这么一个框架呢?MapReduce就不说了,但像Spark这种内存计算框架,为什...
分类:
其他好文 时间:
2014-11-27 20:29:10
阅读次数:
287
Hadoop读书笔记(九)MapReduce计数器;
MapReduce自定义计数器...
分类:
其他好文 时间:
2014-11-27 00:21:10
阅读次数:
228
Hadoop读书笔记(八)MapReduce 运行时指定参数;
如何将MapReduce 打成jar包;...
分类:
编程语言 时间:
2014-11-26 22:42:15
阅读次数:
281
hadoop是用cloudra的官方yum源安装的,服务器是CentOS6.3 64位操作系统,自己写的mapreduce执行的时候hadoop会提示以下错误:WARN util.NativeCodeLoader: Unable to load native-hadoop library for y...
分类:
其他好文 时间:
2014-11-26 18:29:32
阅读次数:
286
上一篇分析了split的生成,现在接着来说具体的split具体内容及其相关的文件和类。以FileSplit(mapred包下org/apache/hadoop/mapreduce/lib/input/FileSplit.java)为例,它继承了InputSplit接口,包括以下属性:1 publ.....
分类:
其他好文 时间:
2014-11-26 18:17:27
阅读次数:
270
在进行本文的操作之前要先搭建一个Hadoop的环境,为了便于实验,可采用单节点部署的方式,具体方法可参见:Centos 6.5 下Hadoop 1.2.1单节点环境的创建
编写源码
主要为创建一个解析气象数据的程序,可以从数据文件中选择气温最高的一年,采用Maven进行编译。下面只包含Maper,Reduce,以及Main函数的代码。完整项目代码请参见
https://g...
分类:
其他好文 时间:
2014-11-26 14:18:14
阅读次数:
535
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等Hadoop的核心是HDFS和mapreduce,两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。mapr...
分类:
其他好文 时间:
2014-11-26 13:48:30
阅读次数:
195
关于SQL和Hadoop的实现参考这里 MapReduce编程-自连接
这里用相同的原理,使用spark实现。本人也是刚学Scala,可能写的不好,还请指正。
object SelfUion {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("SelfUnion")
val sc ...
分类:
其他好文 时间:
2014-11-25 23:51:43
阅读次数:
303
Hadoop读书笔记(六)MapReduce自定义数据类型demo...
分类:
其他好文 时间:
2014-11-25 23:40:37
阅读次数:
362
Hadoop读书笔记(七)MapReduce 0.x版本API使用demo...