一、Spark是什么Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用分布式并行计算框架。Spark拥有hadoopMapReduce所具有的优点,但和MapReduce的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapReduce在计算过程中只有map和
                            
                            
                                分类:
其他好文   时间:
2018-11-16 20:51:02   
                                阅读次数:
168
                             
                    
                        
                            
                            
                                一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架,2013年被Apache基金会接管,是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效:Spark提供Cache机制,支持需要反复迭代的计算
                            
                            
                                分类:
其他好文   时间:
2018-11-15 12:03:46   
                                阅读次数:
205
                             
                    
                        
                            
                            
                                Spark是一个基于内存的计算框架,本文主要是介绍Spark的独立部署。 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-14 14:30:38   
                                阅读次数:
206
                             
                    
                        
                            
                            
                                大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。
                            
                            
                                分类:
其他好文   时间:
2018-11-10 12:49:48   
                                阅读次数:
180
                             
                    
                        
                            
                            
                                    Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Hadoop 2引入的,用以改善MapReduce的表现。但是它也足够胜任其它的分布式计算框架。 YARN提供了一些能被请求调用的APIs,并处理集群资源。但是通常 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-08 13:44:40   
                                阅读次数:
152
                             
                    
                        
                            
                            
                                    Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优 ...
                            
                            
                                分类:
其他好文   时间:
2018-10-21 22:57:15   
                                阅读次数:
1920
                             
                    
                        
                            
                            
                                很多初学者在刚刚接触大数据的时候会有很多疑惑,比如对MapReduce、Storm、Spark三个计算框架的理解经常会产生混乱。 哪一个适合对大量数据进行处理?哪一个又适合对实时的流数据进行处理?又该如何来区分他们呢? 我对比整理了这3个计算框架的基本知识,大家可以了解一下以便对这个3个计算框架有一 ...
                            
                            
                                分类:
其他好文   时间:
2018-10-09 12:44:53   
                                阅读次数:
186
                             
                    
                        
                            
                            
                                    解决方案:一直以来,基于Akka实现的RPC通信框架是Spark引以为豪的主要特性,也是与Hadoop等分布式计算框架对比过程中一大亮点。 但是时代和技术都在演化,从Spark1.3.1版本开始,为了解决大块数据(如Shuffle)的传输问题,Spark引入了Netty通信框架,到了1.6.0版本, ...
                            
                            
                                分类:
Web程序   时间:
2018-09-27 20:11:29   
                                阅读次数:
259
                             
                    
                        
                            
                            
                                    1、介绍一下Hadoop的框架 存储hdfs,计算框架MapReduce,资源管理Yarn 2、简单说下HDFS的读写流程 a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Data ...
                            
                            
                                分类:
其他好文   时间:
2018-09-22 19:47:53   
                                阅读次数:
170
                             
                    
                        
                            
                            
                                1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 job ...
                            
                            
                                分类:
其他好文   时间:
2018-09-20 16:15:35   
                                阅读次数:
154