搜索关键字：计算框架，搜索到492个结果！码迷,mamicode.com！

Hadoop 部署之 Spark (六)

一、Spark是什么Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用分布式并行计算框架。Spark拥有hadoopMapReduce所具有的优点，但和MapReduce的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中，从而不再需要读写HDFS，除此之外，一个MapReduce在计算过程中只有map和

分类：其他好文时间：2018-11-16 20:51:02 阅读次数：168

分分钟理解大数据基础之Spark

一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架，2013年被Apache基金会接管，是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上，支持计算对象数据可以直接缓存到内存中，大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效：Spark提供Cache机制，支持需要反复迭代的计算

分类：其他好文时间：2018-11-15 12:03:46 阅读次数：205

Spark集群搭建

Spark是一个基于内存的计算框架，本文主要是介绍Spark的独立部署。 ...

分类：其他好文时间：2018-11-14 14:30:38 阅读次数：206

零基础大数据学习的10大思维原理和方法全部都在这

大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求，将改变IT系统的升级方式：从简单增量到架构变化。大数据下的新思维——计算模式的转变。

分类：其他好文时间：2018-11-10 12:49:48 阅读次数：180

第4章:YARN

Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Hadoop 2引入的，用以改善MapReduce的表现。但是它也足够胜任其它的分布式计算框架。 YARN提供了一些能被请求调用的APIs，并处理集群资源。但是通常 ...

分类：其他好文时间：2018-11-08 13:44:40 阅读次数：152

大数据面试题

Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章，为了进一步巩固和掌握Spark，在原有spark专刊基础上，新增《Spark面试2000题》专刊，题集包含基础概念、原理、编码开发、性能调优 ...

分类：其他好文时间：2018-10-21 22:57:15 阅读次数：1920

弄清Spark、Storm、MapReduce的这几点区别才能学好大数据

很多初学者在刚刚接触大数据的时候会有很多疑惑，比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱。哪一个适合对大量数据进行处理？哪一个又适合对实时的流数据进行处理？又该如何来区分他们呢？我对比整理了这3个计算框架的基本知识，大家可以了解一下以便对这个3个计算框架有一 ...

分类：其他好文时间：2018-10-09 12:44:53 阅读次数：186

Spark1.6之后为何使用Netty通信框架替代Akka

解决方案：一直以来，基于Akka实现的RPC通信框架是Spark引以为豪的主要特性，也是与Hadoop等分布式计算框架对比过程中一大亮点。但是时代和技术都在演化，从Spark1.3.1版本开始，为了解决大块数据（如Shuffle）的传输问题，Spark引入了Netty通信框架，到了1.6.0版本， ...

分类：Web程序时间：2018-09-27 20:11:29 阅读次数：259

大数据面试题

1、介绍一下Hadoop的框架存储hdfs，计算框架MapReduce，资源管理Yarn 2、简单说下HDFS的读写流程 a、客户端发送请求，调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息，因为真正的block是存在Data ...

分类：其他好文时间：2018-09-22 19:47:53 阅读次数：170

【转】Hive性能优化

1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 job ...

分类：其他好文时间：2018-09-20 16:15:35 阅读次数：154

共492条上一页 1 ... 11 12 13 14 15 ... 50 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)