前言
这个系列是关于Tachyon的,主要基于《Reliable, Memory Speed Storage for Cluster Computing Frameworks 》这篇论文以及源码,最近工作比较忙,精力实在有限,可能更新得比较慢
简介
Tachyon是一个分布式文件系统,提供了一种可靠的方式,可以以访问内存的速度在不同的分布式计算框架之间共享数据。Tachy...
分类:
其他好文 时间:
2014-11-24 10:15:44
阅读次数:
173
一. MapReduce执行过程
MapReduce运行的时候, 会通过Mapper运行的任务读取HDFS中的数据文件, 然后调用自己的方法处理数据, 最后输出. Reduce任务会接受Mapper任务输出的数据, 作为自己输入的数据, 然后调用自己的方法, 最后输出到HDFS的文件中....
分类:
其他好文 时间:
2014-11-23 23:18:51
阅读次数:
314
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器学习、图算法,包...
分类:
其他好文 时间:
2014-11-22 16:08:17
阅读次数:
392
花了大约1周的时间,终于把MapReduce的5大阶段的源码学习结束掉了,收获不少,就算本人对Hadoop学习的一个里程碑式的纪念吧。今天花了一点点的时间,把MapReduce的最后一个阶段,输出OutputFormat给做了分析,这个过程跟InputFormat刚刚好是对着干的,二者极具对称性。为什么这么说呢,待我一一分析。
OutputFormat过程的作用就是定义数...
分类:
其他好文 时间:
2014-11-19 12:44:39
阅读次数:
179
MapReduce五大过程已经分析过半了,上次分析完Map的过程,着实花费了我的很多时间,不过收获很大,值得了额,这次用同样的方法分析完了Reduce的过程,也算是彻底摸透了MapReduce思想的2个最最重要的思想了吧。好,废话不多,切入正题,在学习Reduce过程分析的之前,我特意查了书籍上或网络上相关的资料,我发现很大都是大同小异,缺乏对于源码的参照分析,所以我个人认为,我了可以在某些细节上...
分类:
其他好文 时间:
2014-11-18 13:35:10
阅读次数:
172
1,什么是Paxos算法?Paxos算法是分布式计算领域中一个非常重要的算法,主要解决分布式系统如何就某个值(决议)达成一致的问题。一个典型的场景是分布式数据库的一致问题:如果分布式数据库的各个节点初始状态一致,又能执行相同的操作序列,那么最后能达到一个一致的状态。但是如何保证在每个节点上执行相同的...
分类:
其他好文 时间:
2014-11-18 13:22:25
阅读次数:
225
虽然第一个网络设备可追溯到上个世纪80年代,但这样的设计理念仍在加速发展。对象机房环境监控系统管理组织的CEO Richard Soley说,现在很明显的物联网(IoT)技术正在进入系统。 “你所看到的是工业系统、网络解决方案、大数据的融合,以及使用全球大量分布式计算构建系统能力,” Soley.....
分类:
其他好文 时间:
2014-11-17 19:05:34
阅读次数:
213
同事总结的hive sql 优化 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原...
分类:
数据库 时间:
2014-11-17 12:39:17
阅读次数:
393
UUID含义是通用唯一识别码 (Universally Unique Identifier),这 是一个软件建构的标准,也是被开源软件基金会 (Open Software Foundation, OSF) 的组织在分布式计算环境 (Distributed Computing Environment,...
分类:
编程语言 时间:
2014-11-17 12:08:57
阅读次数:
282
Partition的中文意思就是分区,分片的意思,这个阶段也是整个MapReduce过程的第三个阶段,就在Map任务的后面,他的作用就是使key分到通过一定的分区算法,分到固定的区域中,给不同的Reduce做处理,达到负载均衡的目的。他的执行过程其实就是发生在上篇文章提到的collect的过程阶段,当输入的key调用了用户的map函数时,中间结果就会被分区了。虽说这个过程看似不是很重要,但是也有值...
分类:
其他好文 时间:
2014-11-16 17:25:40
阅读次数:
235