志愿计算,是一种利用计算机闲置资源參与公益类分布式计算的方法。志愿计算的框架:1 Folding@homeFolding@home是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算project。蛋白质是一个生物体系的网络基础,它们是一个个纳米级计算机。在蛋白质实现它的生物功能之前,它...
分类:
其他好文 时间:
2014-07-12 14:57:27
阅读次数:
315
GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
分类:
其他好文 时间:
2014-07-05 16:50:56
阅读次数:
210
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
一、环境:
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r158109...
分类:
其他好文 时间:
2014-07-01 09:29:54
阅读次数:
499
Apache Storm是一个免费、开源、分布式的实时计算系统。相对于Hadoop适用于批处理而言,利用Storm可以非常容易地对流式数据进行实时可靠处理。Storm使用简单,支持多种编程语言且非常有趣!...
分类:
其他好文 时间:
2014-06-26 14:20:52
阅读次数:
294
在之前的博文里有说过executor框架,其实Fork/Join就是继承executor的升级版啦executor用于创建一个线程池,但是需要手动的添加任务,如果需要将大型任务分治,显然比较麻烦而Fork/Join则是解决这个问题的计算框架用户定义部分:如何分治 (compute(1 , 10))定...
分类:
编程语言 时间:
2014-06-18 18:30:52
阅读次数:
224
GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始做,这里的内容是基于论文Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the Cloud" ...
分类:
其他好文 时间:
2014-06-15 00:09:58
阅读次数:
326
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD,及其在内存上的容错,内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In...
分类:
其他好文 时间:
2014-06-14 20:42:37
阅读次数:
326
Petuum是一个分布式机器学习专用计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。主要思想Para...
分类:
其他好文 时间:
2014-06-14 20:39:34
阅读次数:
261
Hadoop2.0是对Hadoop1.0全面升级,诞生了通用的计算框架YARN,很多计算框架或者应用程序不再基于传统的操作系统开发,而是基于YARN这个云操作系统。典型的代表是DAG计算框架Tez,当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本,比如Storm-on-yarn,S...
分类:
其他好文 时间:
2014-06-03 13:09:44
阅读次数:
336