标签:style blog http io ar color 使用 sp on
Disco旨在较大的应用程序轻松集成,比如web服务,那样要求计算的任务可以委托给独立于核心应用程序的集群去执行。Disco提供了一个非常紧凑的Python API——通常只需要两个函数,以及一个rest样式的Web API的工作控制和简单易用的状态监控Web界面。此外,Disco还拥有了一个简单的工作协议,允许作业以任何语言编写,实现协议。
Disco对LINUX商业服务器集群非常友好,新节点可以通过单击Web界面动态地添加到系统。如果服务器崩溃,能够自动将失败的任务重新分配,这样就没有任何中断。在自动配置机制的帮助下,如全自动安装,甚至是维护大型集群,也只有少量的人工工作。作为一个观念的验证,在帕洛阿尔托的诺基亚研究中心使用Disco这种设置来维护一个800核心集群。
·证明规模数以百计的CPU和成千上万的同步任务
·用于处理数以万计规模为tb的数据集
·简单易用:一个典型的任务由用Python编写的两个函数和两个调用Disco API
·通过实施Disco工作协议,可以任何其他语言指定任务。
·输入数据可以在任何格式,甚至二进制数据,如图像。位于任何源的数据可以通过HTTP得到或分发到本地磁盘
·容错:服务器崩溃不中断工作。能够自动将失败的任务重新分配
·灵活:除了核心的map和reduce函数、组合器功能,配分函数和一个输入阅读器可以由用户提供
·使用标准的Disco模块和Web api轻松集成较大的应用程序
·带有一个内置的分布式存储系统(Disco分布式文件系统)。
数据输入:
disco可分散计算,需要确保数据能被分割,一般来说,将数据放入ddfs文件系统中,该文件系统类似于hdfs,是一个分布式文件系统,能处理好数据的分配和复制。
标签:style blog http io ar color 使用 sp on
原文地址:http://blog.csdn.net/myhaspl/article/details/41719343