码迷,mamicode.com
首页 >  
搜索关键字:计算框架    ( 492个结果
Hadoop 部署之 Spark (六)
一、Spark是什么Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用分布式并行计算框架。Spark拥有hadoopMapReduce所具有的优点,但和MapReduce的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapReduce在计算过程中只有map和
分类:其他好文   时间:2018-11-16 20:51:02    阅读次数:168
分分钟理解大数据基础之Spark
一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架,2013年被Apache基金会接管,是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效:Spark提供Cache机制,支持需要反复迭代的计算
分类:其他好文   时间:2018-11-15 12:03:46    阅读次数:205
Spark集群搭建
Spark是一个基于内存的计算框架,本文主要是介绍Spark的独立部署。 ...
分类:其他好文   时间:2018-11-14 14:30:38    阅读次数:206
零基础大数据学习的10大思维原理和方法全部都在这
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。
分类:其他好文   时间:2018-11-10 12:49:48    阅读次数:180
第4章:YARN
Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Hadoop 2引入的,用以改善MapReduce的表现。但是它也足够胜任其它的分布式计算框架。 YARN提供了一些能被请求调用的APIs,并处理集群资源。但是通常 ...
分类:其他好文   时间:2018-11-08 13:44:40    阅读次数:152
大数据面试题
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优 ...
分类:其他好文   时间:2018-10-21 22:57:15    阅读次数:1920
弄清Spark、Storm、MapReduce的这几点区别才能学好大数据
很多初学者在刚刚接触大数据的时候会有很多疑惑,比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱。 哪一个适合对大量数据进行处理?哪一个又适合对实时的流数据进行处理?又该如何来区分他们呢? 我对比整理了这3个计算框架的基本知识,大家可以了解一下以便对这个3个计算框架有一 ...
分类:其他好文   时间:2018-10-09 12:44:53    阅读次数:186
Spark1.6之后为何使用Netty通信框架替代Akka
解决方案:一直以来,基于Akka实现的RPC通信框架是Spark引以为豪的主要特性,也是与Hadoop等分布式计算框架对比过程中一大亮点。 但是时代和技术都在演化,从Spark1.3.1版本开始,为了解决大块数据(如Shuffle)的传输问题,Spark引入了Netty通信框架,到了1.6.0版本, ...
分类:Web程序   时间:2018-09-27 20:11:29    阅读次数:259
大数据面试题
1、介绍一下Hadoop的框架 存储hdfs,计算框架MapReduce,资源管理Yarn 2、简单说下HDFS的读写流程 a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Data ...
分类:其他好文   时间:2018-09-22 19:47:53    阅读次数:170
【转】Hive性能优化
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 job ...
分类:其他好文   时间:2018-09-20 16:15:35    阅读次数:154
492条   上一页 1 ... 11 12 13 14 15 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!