当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题: 1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。 2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。 于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问 ...
分类:
其他好文 时间:
2017-08-21 19:44:01
阅读次数:
153
1 简介 RPC 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。 2 调用分类 RPC 调用分以下两种: 同步调用 客户方等待调用执行完成并返回结果。 异 ...
分类:
其他好文 时间:
2017-08-20 15:48:36
阅读次数:
225
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar ...
分类:
Web程序 时间:
2017-08-17 20:20:38
阅读次数:
305
在Spark或Hadoop MapReduce的分布式计算框架中,数据被按照key分成一块一块的分区,打散分布在集群中各个节点的物理存储或内存空间中,每个计算任务一次处理一个分区,但map端和reduce端的计算任务并非按照一种方式对相同的分区进行计算,例如,当需要对数据进行排序时,就需要将key相 ...
分类:
其他好文 时间:
2017-08-17 20:07:49
阅读次数:
176
【深度】机器学习进化史:从线性模型到神经网络 本文作者:天诺 2015-05-05 16:54 导语:Reza Zadeh是斯坦福大学工程计算和数学研究所顾问教授,他主要专注于机器学习理论和应用,分布式计算。如果你对人工智能感兴趣,那他讲述的机器学习进化史你一定要看。 Reza Zadeh是斯坦福大 ...
分类:
其他好文 时间:
2017-08-16 21:39:00
阅读次数:
253
如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它,因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。 单词计数(wordcount)主要步骤: 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap(单词,value ...
分类:
其他好文 时间:
2017-08-15 10:20:24
阅读次数:
218
MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是:分而治之。Mapper负责分,把一个复杂的业务,任务分成若干个简单的任务分发到网络上的每个节点并行 ...
分类:
其他好文 时间:
2017-08-15 10:09:36
阅读次数:
155
为什么要了解点数学基础 学习大数据分布式计算时多少会涉及到机器学习的算法,所以理解一些机器学习基础,有助于理解大数据分布式计算系统(比如spark)的设计。机器学习中一个常见的就是gradient descent算法,是线性回归问题的一个基础算法。gradient是数学概念。 Gradient 如果 ...
分类:
编程语言 时间:
2017-08-08 13:58:53
阅读次数:
241
Apache Spark 内存管理详解 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的 ...
分类:
Web程序 时间:
2017-08-03 11:25:51
阅读次数:
240