http://blog.csdn.net/pipisorry/article/details/43235263
Introduction
DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆,Davids的作品,Beandb作者。是豆瓣刚开源的集群计算框架,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有限的可以在计算过程中、从不同机器访问的共享变量类型。DPark具有的一个很重要的特性:分布式的数据集可以在多个不同的并行循环当中被重复利用。这个特性将其与其他数据流形式的框架例如Hadoop和Dryad区分开来。
{logo是一条亚马逊河流域的地包天食人鱼,成群的食人鱼能够在一分钟内吃光一头牛,充分体现了划分简单任务群体协作的高效与世界的残酷}
官方中文wiki: https://github.com/jackfengji/test_pro/wiki
google group:https://groups.google.com/forum/#!forum/dpark-users
与Spark的区别
Spark中使用一个线程运行一个任务,但是DPark受python中GIL的影响,选择使用一个进程来运行一个任务。Spark支持Hadoop的文件系统接口,Dpark只支持posix文件接口。
由于Python和Scala的区别和特性,他们之间有一些不同:
cache
之后在同一个计算节点的各个任务之间共享内存变得相对复杂,并会带来一些额外的开销,我们在努力使得这一开销尽量降低。
from:http://blog.csdn.net/pipisorry/article/details/43235263
ref:DPark安装及相关资料整理
原文地址:http://blog.csdn.net/pipisorry/article/details/43235263