搜索关键字：spark 安装、介绍，搜索到7164个结果！码迷,mamicode.com！

Spark Streaming容错的改进和零数据丢失

实时流处理系统必须要能在24/7时间内工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，Spark Streaming就支持从driver和worker故障恢复的能力。本文谈及Spark Streaming容错的改进和零数据丢失的实现。【编者按】本文来自SparkStreaming项目带头...

分类：其他好文时间：2015-07-15 13:01:32 阅读次数：134

Spark分布式计算和RDD模型研究

1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分...

分类：其他好文时间：2015-07-15 12:43:05 阅读次数：164

partitioner

我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只需要扩展Partition...

分类：其他好文时间：2015-07-14 22:23:02 阅读次数：295

【Spark】Spark容错机制

引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后将创建...

分类：其他好文时间：2015-07-14 20:31:04 阅读次数：113

【Spark】Spark的Shuffle机制

MapReduce中的Shuffle在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。 Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，...

分类：其他好文时间：2015-07-14 20:30:00 阅读次数：135

【Spark】RDD机制实现模型

RDD渊源弹性分布式数据集(RDD)，它是MapReduce模型一种简单的扩展和延伸，RDD为了实现迭代、交互性和流查询等功能，需要保证RDD具备在并行计算阶段之间能够高效地数据共享的功能特性。RDD运用高效的数据共享概念和类似于MapReduce的操作方式，使得所有的计算工作可以有效地执行，并可以在当前特定的系统中获得关键性的优化。RDD是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式...

分类：其他好文时间：2015-07-14 20:29:36 阅读次数：111

【Spark】SparkContext源码解读

SparkContext的初始化SparkContext是应用启动时创建的Spark上下文对象，是进行Spark应用开发的主要接口，是Spark上层应用与底层实现的中转站（SparkContext负责给executors发送task）。 SparkContext在初始化过程中，主要涉及一下内容： SparkEnv DAGScheduler TaskScheduler Sche...

分类：其他好文时间：2015-07-14 20:29:32 阅读次数：157

spark-sql用hive表格，在yarn-cluster模式下运行遇到的问题及解决办法

1、编程时无法加载hive包，需要在编译好的spark(用spark-shell启动，用spark-sql能够直接访问hive表)的lib目录下，考出assembly包，为其创建一个maven的repository，然后添加到dependency里面。最笨的创建repository的办法就是直接创建...

分类：数据库时间：2015-07-14 17:02:48 阅读次数：259

Spark入门（Python版）

Hadoop是对大数据集进行分布式计算的标准工具，这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统，提供了包括工具和技巧在内的丰富生态系统，允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年，两个来自Google的观点使...

分类：编程语言时间：2015-07-14 15:17:28 阅读次数：228

Ubuntu下Spark开发环境搭建

配置Ubuntu下使用Python开发Spark应用Ubuntu 64基本环境配置安装JDK，下载jdk-8u45-linux-x64.tar.gz，解压到/opt/jdk1.8.0_45 下载地址：http://www.oracle.com/technetwork/java/javase/dow...

分类：系统相关时间：2015-07-14 15:11:54 阅读次数：383

共7164条上一页 1 ... 592 593 594 595 596 ... 717 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)