码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark Streaming容错的改进和零数据丢失
实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障恢复的能力。本文谈及Spark Streaming容错的改进和零数据丢失的实现。【编者按】本文来自SparkStreaming项目带头...
分类:其他好文   时间:2015-07-15 13:01:32    阅读次数:134
Spark分布式计算和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分...
分类:其他好文   时间:2015-07-15 12:43:05    阅读次数:164
partitioner
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partition...
分类:其他好文   时间:2015-07-14 22:23:02    阅读次数:295
【Spark】Spark容错机制
引入一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建...
分类:其他好文   时间:2015-07-14 20:31:04    阅读次数:113
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,...
分类:其他好文   时间:2015-07-14 20:30:00    阅读次数:135
【Spark】RDD机制实现模型
RDD渊源弹性分布式数据集(RDD),它是MapReduce模型一种简单的扩展和延伸,RDD为了实现迭代、交互性和流查询等功能,需要保证RDD具备在并行计算阶段之间能够高效地数据共享的功能特性。RDD运用高效的数据共享概念和类似于MapReduce的操作方式,使得所有的计算工作可以有效地执行,并可以在当前特定的系统中获得关键性的优化。RDD是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式...
分类:其他好文   时间:2015-07-14 20:29:36    阅读次数:111
【Spark】SparkContext源码解读
SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象,是进行Spark应用开发的主要接口,是Spark上层应用与底层实现的中转站(SparkContext负责给executors发送task)。 SparkContext在初始化过程中,主要涉及一下内容: SparkEnv DAGScheduler TaskScheduler Sche...
分类:其他好文   时间:2015-07-14 20:29:32    阅读次数:157
spark-sql用hive表格,在yarn-cluster模式下运行遇到的问题及解决办法
1、编程时无法加载hive包,需要在编译好的spark(用spark-shell启动,用spark-sql能够直接访问hive表)的lib目录下,考出assembly包,为其创建一个maven的repository,然后添加到dependency里面。最笨的创建repository的办法就是直接创建...
分类:数据库   时间:2015-07-14 17:02:48    阅读次数:259
Spark入门(Python版)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计 算。2003和2004年,两个来自Google的观点使...
分类:编程语言   时间:2015-07-14 15:17:28    阅读次数:228
Ubuntu下Spark开发环境搭建
配置Ubuntu下使用Python开发Spark应用Ubuntu 64基本环境配置 安装JDK,下载jdk-8u45-linux-x64.tar.gz,解压到/opt/jdk1.8.0_45 下载地址:http://www.oracle.com/technetwork/java/javase/dow...
分类:系统相关   时间:2015-07-14 15:11:54    阅读次数:383
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!