所谓集群是指一组独立的计算机系统构成的一个松耦合的多处理器系统,它们之间通过网络实现进程间的通信。应用程序可以通过网络共享内存进行消息传送,实现分布式计算机。通俗一点来说,就是让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。网络的负载均衡是一种动态均衡技术,常见的实现方式是通过一些...
分类:
系统相关 时间:
2014-07-09 21:24:10
阅读次数:
305
Parallel Python实现了一种简易的分布式计算方法。...
分类:
编程语言 时间:
2014-07-08 21:16:43
阅读次数:
227
欢迎转载,转载请注明出处,徽沪一郎。概要Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准。其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配。Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部...
分类:
其他好文 时间:
2014-07-07 14:18:32
阅读次数:
297
GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
分类:
其他好文 时间:
2014-07-05 16:50:56
阅读次数:
210
2004年Google发表了一篇非常具有影响力的论文向全世界介绍了MapReduce框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是Apache Hadoop的基...
分类:
其他好文 时间:
2014-07-01 00:21:41
阅读次数:
320
0、参考自http://tech.uc.cn/?p=2116 http://www.csdn.net/article/2013-07-08/2816149 1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从...
分类:
其他好文 时间:
2014-06-24 11:32:46
阅读次数:
268
spark 内存计算 分布式计算平台 Databricks...
分类:
其他好文 时间:
2014-06-21 21:23:20
阅读次数:
319
1.关于java语言的基本概念java,面向对象,跨平台,适合分布式计算,解释型语言,具有多线程处理能力和较高的安全性.JVM (java virtual machine) java虚拟机, 能够运行java bytecode的虚拟机,是java平台的一部分。JVM屏蔽来与具体os相关的信息,使得j...
分类:
编程语言 时间:
2014-06-21 10:26:05
阅读次数:
319
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收...
分类:
其他好文 时间:
2014-06-16 14:21:39
阅读次数:
351
Petuum是一个分布式机器学习专用计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。主要思想Para...
分类:
其他好文 时间:
2014-06-14 20:39:34
阅读次数:
261