搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark闭包与序列化

在Spark的官方文档再三强调那些将要作用到RDD上的操作，都会被分发到各个worker节点上去执行，我们都知道，这些操作实际上就是一些函数和涉及的变量组成的闭包，这里显然涉及到一个容易被忽视的问题：闭包的“序列化”。显然，闭包是有状态的，这主要是指它牵涉到的那些自由变量以及自由变量的依赖到的其他变量，所以，在将一个简单的函数或者一段简短的操作（就是闭包）传递给类似RDD.map等函数时，Spark...

分类：其他好文时间：2016-03-21 12:27:57 阅读次数：806

[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量

比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法)，那么序列化时，会将该方法所属的对象的所有变量都序列化的，可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点，能定义在计算函数内的方法就定义在里面。...

分类：其他好文时间：2016-03-20 08:09:56 阅读次数：661

Spark作业执行

Spark中一个action触发一个job的执行，在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析，生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认，即生成相应的Task，将生成的Task

分类：其他好文时间：2016-03-16 18:56:31 阅读次数：144

大数据技能图谱

下面是 StuQ 发布的大数据技能图谱，比较实用，供参考大数据处理框架 Spark - RDD - Spark SQL - Spark Streaming - MLLibHadoop - HDFS (分布式文件系统) - Mapreduce（计算框架） - Yarn（资源管理平台） - Pig

分类：其他好文时间：2016-03-14 09:28:47 阅读次数：173

在spark中遇到了奇怪的错误，找到了奇怪的解决方法

这两天一直在写spark程序，遇到了一个奇怪的问题。问题简单描述如下，有两个RDD，设为rdd_a,rdd_b,当将这两个rdd合并的时候，spark会在运行中卡死。解决方式也是奇葩。只要在合并这两个rdd之前，分别执行rdd_a.count(),rdd_b.count()，程序就又能够愉快的

分类：其他好文时间：2016-03-11 01:14:10 阅读次数：198

1.1RDD解读(二)

（6）transformation 操作，通过外在的不同RDD表现形式来达到内部数据的处理过程。这类操作并不会触发作业的执行，也常被称为lazy操作。大部分操作会生成并返回一个新的RDD，例sortByKey就不会产生一个新的RDD。 1) map函数，一行数据经过map函数处理后还是一行数据 /...

分类：其他好文时间：2016-03-10 23:45:16 阅读次数：468

Spark RDD 多文件输入

1.将多个文本文件读入一个RDD中 SparkConf conf=new SparkConf() .setMaster("local") .setAppName("save"); JavaSparkContext sc=new JavaSparkContext(conf); JavaRDD<Stri

分类：其他好文时间：2016-03-10 20:16:00 阅读次数：1598

1.1RDD解读

1.RDD（Resilient Distributed DataSet）是Spark生态系统中最基本的抽象，代表不可变的、可并行操作的分区元素集合。RDD这个类有RDD系列所有基本的操作，比如map、filter、persist.另外，org.apache.spark.rdd.PairRDDFunc

分类：其他好文时间：2016-03-10 00:07:31 阅读次数：233

spark的runJob函数2

上一篇我们讲到了spark的runJob方法提交job运行，runJob在提交时，需要RDD和一个函数，那么运行机制是什么呢？函数如何运行的呢？首先job被提交后，需要切分stage，然后每个stage会划分成一组task提交executor运行。如何切分stage和task，需要另写一篇来解读。那

分类：其他好文时间：2016-03-08 02:08:47 阅读次数：236

Spark源码分析之-scheduler模块

RDD的依赖关系和Stage的分类在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，而这个状态有可能是从前一状态转换而来的，因此换句话说这一个RDD有可能与之前的RDD(s)有依赖关系。根据依赖关系的不同，可以将RDD分成两种不同的类型：Narrow Dependency和Wide

分类：其他好文时间：2016-03-04 22:25:21 阅读次数：188

共1327条上一页 1 ... 108 109 110 111 112 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)