码迷,mamicode.com
首页 >  
搜索关键字:分布式计算框架    ( 113个结果
深度剖析Spark分布式执行原理
转载自:https://zhuanlan.zhihu.com/p/25772054 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式 ...
分类:其他好文   时间:2017-11-05 13:09:33    阅读次数:216
storm学习笔记(一)
1、storm介绍 storm是一种用于事件流处理的分布式计算框架,它是有BackType公司开发的一个项目,于2014年9月加入了Apahche孵化器计划并成为其旗下的顶级项目之一。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比 Hadoop 用于批 ...
分类:其他好文   时间:2017-08-24 01:10:25    阅读次数:175
Spark Shuffle的技术演进
在Spark或Hadoop MapReduce的分布式计算框架中,数据被按照key分成一块一块的分区,打散分布在集群中各个节点的物理存储或内存空间中,每个计算任务一次处理一个分区,但map端和reduce端的计算任务并非按照一种方式对相同的分区进行计算,例如,当需要对数据进行排序时,就需要将key相 ...
分类:其他好文   时间:2017-08-17 20:07:49    阅读次数:176
Hadoop- Wordcount程序原理及代码实现
如果对Hadoop- MapReduce分布式计算框架原理还不熟悉的可以先了解一下它,因为本文的wordcount程序实现就是MapReduce分而治之最经典的一个范例。 单词计数(wordcount)主要步骤: 1.读数据 2.按行处理 3.按空格切分行内单词 4.HashMap(单词,value ...
分类:其他好文   时间:2017-08-15 10:20:24    阅读次数:218
Hadoop- MapReduce分布式计算框架原理
MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是:分而治之。Mapper负责分,把一个复杂的业务,任务分成若干个简单的任务分发到网络上的每个节点并行 ...
分类:其他好文   时间:2017-08-15 10:09:36    阅读次数:155
Hadoop学习:Map/Reduce初探与小Demo实现
一、 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架攻克了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,能够使没有并行 处理或者分布式计算经验的project师,也能非常轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程 ...
分类:其他好文   时间:2017-07-31 21:12:35    阅读次数:446
拉开大变革序幕(下):分布式计算框架与大数据
由于对大数据处理的需求。使得我们不断扩展计算能力,集群计算的要求导致分布式计算框架的诞生。用便宜的集群计算资源在短短的时间内完毕以往数周甚至数月的执行等待,有人说谁掌握了庞大的数据。谁就主导了需求。尽管在十几年间,通过过去几十年的积淀,诞生了mapreduce。诞生了分布式文件系统。诞生了霸主级别的 ...
分类:其他好文   时间:2017-07-22 13:14:18    阅读次数:231
shuffle和sort分析
MapReduce中的Shuffle和Sort分析 MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主 ...
分类:其他好文   时间:2017-07-14 22:17:41    阅读次数:284
spark核心原理之SparkContext原理(1)
Spark是最为流行的分布式计算框架,这篇文章简要介绍spark 1.X版本任务调度的基本部件及其原理,包括SparkContext,SparkEnv,Executor,TaskScheduler,DAGScheduler以及其他部件。本文参考自《深入理解Spark》(by耿嘉安)一书。 1 Spa ...
分类:其他好文   时间:2017-07-08 12:27:02    阅读次数:277
MapReduce
Hadoop内核 | MapReduce(分布式计算框架) 源于Google的MapReduce论文 > √发表于2004年12月 √Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 > √良好的扩展性 √高容错性 √适合PB级以上海量数据的离线处理 ...
分类:其他好文   时间:2017-06-25 13:48:26    阅读次数:117
113条   上一页 1 ... 4 5 6 7 8 ... 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!