内容简介 《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。 作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性... ...
分类:
其他好文 时间:
2017-12-03 12:59:28
阅读次数:
267
分布式系统实践 1. 流计算框架 Flink 与 Storm 的性能对比 https://mp.weixin.qq.com/s/b8Jiqj_SXM1acckTPyv57g 摘要: 很详细的一个性能测试对比, 让我们更清楚的了解storm和flink的性能差异, 加深对流式计算系统的理解. 2. 在 ...
分类:
其他好文 时间:
2017-12-01 23:27:48
阅读次数:
204
1.前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据 ...
分类:
其他好文 时间:
2017-11-30 23:24:26
阅读次数:
164
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Execut... ...
分类:
数据库 时间:
2017-11-26 18:40:39
阅读次数:
260
一、MapReduce是用于解决什么问题的? 每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢? 首先来看一下MapReduce官方定义: 总结一句话:MapReduce就是批量处理海量数据的分布式计算框架。 在数据规模比较小时,如果要批量 ...
分类:
其他好文 时间:
2017-11-12 14:52:53
阅读次数:
110
1、Tez简介Tez是Hontonworks开源的支持DAG作业的计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序2、编译tez本文记录Tez 0.8.5的编译过程,... ...
分类:
其他好文 时间:
2017-11-05 13:53:29
阅读次数:
155
转载自:https://zhuanlan.zhihu.com/p/25772054 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式 ...
分类:
其他好文 时间:
2017-11-05 13:09:33
阅读次数:
216
Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。简单来说Spark是 内存迭代计 ...
分类:
其他好文 时间:
2017-10-29 15:17:07
阅读次数:
179
今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。 一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着。今天就借这个机会好好学习一下。 一张表 Hadoop Hadoop就是解决了大数据的可靠存储和处理。现在的Hadoop主要 ...
分类:
其他好文 时间:
2017-10-25 19:50:26
阅读次数:
128
前言 前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 3)并行计算大趋所势 二、大数据的并行计算 1)一个大数据若可以分为具有同样计算过程的数据块,并且这 ...
分类:
其他好文 时间:
2017-10-23 21:44:17
阅读次数:
143