搜索关键字：分布式计算系统，搜索到65个结果！码迷,mamicode.com！

Spark数据本地性

Spark数据本地性分布式计算系统的精粹在于移动计算而非移动数据，但是在实际的计算过程中，总存在着移动数据的情况，除非是在集群的所有节点上都保存数据的副本。移动数据，将数据从一个节点移动到另一个节点进行计算，不但消耗了网络IO，也消耗了磁盘IO，降低了整个计算的效率。为了提高数据的本地性，除了优化算...

分类：其他好文时间：2016-01-11 21:43:24 阅读次数：955

Storm的数据可靠性(理论)

Storm的数据可靠性(理论) Storm的数据可靠性(理论)我们都知道，分布式计算系统一般都管理着许多的机器。我们假设，现在有1000台机器的集群，假设每天每台机器出故障的几率只有1/1000，也就是说三年出一次...

分类：其他好文时间：2015-12-12 18:46:28 阅读次数：196

分布式基础学习（2）分布式计算系统（Map/Reduce）

二.分布式计算（Map/Reduce）分布式式计算，同样是一个宽泛的概念，在这里，它狭义的指代，按GoogleMap/Reduce框架所设计的分布式框架。在Hadoop中，分布式文件系统，很大程度上，是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统，类似的定义推广到分...

分类：其他好文时间：2015-11-12 20:03:39 阅读次数：292

简介分布式计算系统的硬件架构

作者：朱金灿来源：http://blog.csdn.net/clever101 一个分布式计算系统的硬件应该如何配置？个人愚见，应该根据分布式计算的计算类型来配置。分布式并行处理系统从磁盘I/O角度可以分为弱I/O和强I/O两种。一般的互联网大数据分析为弱I/O，这样存储可以采用分布式存储，具体为一个计算节点上挂一个大硬盘，典型例子为阿里云。架构图如下：上图展示了...

分类：其他好文时间：2015-08-31 23:40:00 阅读次数：233

Spark：一个高效的分布式计算系统--转

原文地址：http://soft.chinabyte.com/database/431/12914931.shtml概述什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于map reduce算法实.....

分类：其他好文时间：2015-08-21 15:17:40 阅读次数：278

Parallel Python——一个简单的分布式计算系统

如何建立一个高速的分布式计算平台？Parallel python此目的。Parallel Python（http://www.parallelpython.com/content/view/15/30/#QUICKCLUSTERS）是Python进行分布式计算的开源模块。可以将计算压力分布到多核CP...

分类：编程语言时间：2015-07-28 20:20:23 阅读次数：131

【分布式计算】MapReduce的替代者-Parameter Server

首先还是要声明一下，这个文章是我在入职阿里云1个月以来，对于分布式计算的一点肤浅的认识，可能有些地方不够妥善，还请看官可以指出不足的地方，共同进步。背景随着互联网的发展，数据量的增大，很多对于数据的处理工作（例如一些推荐系统、广告推送等）都迁移到了云端，也就是分布式计算系统上。衍生了很多牛逼的分布式计算的计算模型，比较著名的就是MapReduce、MPI、BSP等。后来也产生了一些分布式计...

分类：其他好文时间：2015-07-13 10:18:08 阅读次数：507

机器学习数学基础- gradient descent算法（上）

为什么要了解点数学基础学习大数据分布式计算时多少会涉及到机器学习的算法，所以理解一些机器学习基础，有助于理解大数据分布式计算系统（例如spark）的设计。机器学习中一个常见的就是gradient descent算法，是线性回归问题的一个基础算法。gradient是数学概念。Gradient假设一个函数有n个自变量：f(x1,x2......xn)f(x_1,x_2......x_n)，且每个x都是标...

分类：编程语言时间：2015-07-05 09:40:29 阅读次数：147

Spark：一个高效的分布式计算系统

http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于M...

分类：其他好文时间：2015-07-02 17:24:03 阅读次数：135

流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master...

分类：其他好文时间：2015-07-02 15:29:02 阅读次数：149

共65条上一页 1 ... 3 4 5 6 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)