搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

04、常用RDD操作

函数名目的示例结果 RDD[U] map(f: T => U) T：初始元素类型 U：转换后元素类型将函数应用于 RDD 中的每个元素，将返回值构成新的 RDD rdd.map(x => x + 1) 测试数据：{1, 2, 3... ...

分类：其他好文时间：2017-07-28 22:33:00 阅读次数：178

RDDs基本操作、RDDs特性、KeyValue对RDDs

摘要：RDD是Spark中极为重要的数据抽象，这里总结RDD的概念，基本操作Transformation(转换)与Action，RDDs的特性，KeyValue对RDDs的Transformation(转换)。 1.RDDs是什么 Resilient distributed datasets(弹性分 ...

分类：其他好文时间：2017-07-28 20:51:04 阅读次数：271

05、transformation操作开发实战

1、map：将集合中每个元素乘以22、filter：过滤出集合中的偶数3、flatMap：将行拆分为单词4、groupByKey：将每个班级的成绩进行分组5、reduceByKey：统计每个班级的总分6、sortByKey、sortBy：将学生分数进行排序7、join：打印每个学生的成绩8、cogr... ...

分类：其他好文时间：2017-07-28 19:24:39 阅读次数：150

04、常用RDD操作

函数名目的示例结果 RDD[U] map(f: T => U) T：初始元素类型 U：转换后元素类型将函数应用于 RDD 中的每个元素，将返回值构成新的 RDD rdd.map(x => x + 1) 测试数据：{1, 2, 3... ...

分类：其他好文时间：2017-07-28 19:15:21 阅读次数：194

Spark学习

mapreduce RDD 流程示意 Yarn ...

分类：其他好文时间：2017-07-28 09:42:23 阅读次数：123

Spark RDD 默认分区数量 - repartitions和coalesce异同

RDD.getNumPartitions()方法可以获得一个RDD分区数量， 1、默认由文件读取的话，本地文件会进行shuffle，hdfs文件默认会按照dfs分片来设定。 2、计算生成后，默认会按照executor-number*executor-cores来分片，也就是spark默认按照总工作核 ...

分类：其他好文时间：2017-07-27 20:24:54 阅读次数：238

04、常用RDD操作

1、常用transformation介绍操作介绍map将RDD中的每个元素传入自定义函数，获取一个新的元素，然后用新的元素组成新的RDDfilter对RDD中每个元素进行判断，如果返回true则保留，返回false则剔除。flatMap与map类似，但是对每个元素都可以返回一个或多个新元素。grop... ...

分类：其他好文时间：2017-07-26 22:03:38 阅读次数：133

03、操作RDD（transformation和action案例实战）

1、transformation和action介绍Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Dri... ...

分类：其他好文时间：2017-07-26 21:46:16 阅读次数：129

02、创建RDD（集合、本地文件、HDFS文件）

Spark Core提供了三种创建RDD的方式，包括：使用程序中的集合创建RDD；使用本地文件创建RDD；使用HDFS文件创建RDD。1、并行化集合如果要通过并行化集合来创建RDD，需要针对程序中的集合，调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集... ...

分类：其他好文时间：2017-07-26 19:24:24 阅读次数：263

一、spark错误

1、 spark 从hbase过滤出数据形成RDD，然后再做计算，这个错误大概意思是从hbase过滤出来的数据为空，也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca ...

分类：其他好文时间：2017-07-24 13:08:29 阅读次数：177