介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种方法: 1 ...
分类:
其他好文 时间:
2016-06-22 23:24:26
阅读次数:
238
本期内容:1.SparkStreaming中RDD为空处理2.StreamingContext程序停止方式SparkStreaming运用程序是根据我们设定的BatchDuration来产生RDD,产生的RDD存在partitons数据为空的情况,但是还是会执行foreachPartition,会获取计算资源,然后计算一下,这种情况就会浪费集群计算资..
分类:
其他好文 时间:
2016-06-14 16:16:58
阅读次数:
183
rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame生成方式: 1)从rdd生成 2)读取hive表生成 ...
分类:
数据库 时间:
2016-06-12 10:45:05
阅读次数:
166
本期内容 : Spark Streaming中的架构设计和运行机制 Spark Streaming深度思考 Spark Streaming的本质就是在RDD基础之上加上Time ,由Time不断的运行触发周而复始的接收数据及产生Job处理数据。 一、 ReceiverTracker : Receiv ...
分类:
其他好文 时间:
2016-06-07 06:36:50
阅读次数:
270
本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断 ...
分类:
其他好文 时间:
2016-06-06 23:39:17
阅读次数:
248
combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] def combineByKey[C](crea ...
分类:
其他好文 时间:
2016-06-06 11:57:54
阅读次数:
279
Java接入Spark之创建RDD的两种方式和操作RDD...
分类:
编程语言 时间:
2016-06-03 19:27:57
阅读次数:
1186
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、 ...
分类:
其他好文 时间:
2016-06-02 20:05:59
阅读次数:
420
本期内容: 1、Spark Streaming中RDD的空处理 2、StreamingContext程序的停止 一、Spark Streaming中RDD的空处理 案例代码: Scala代码: package com.dt.spark.sparkstreamingimport org.apache. ...
分类:
其他好文 时间:
2016-06-02 17:54:11
阅读次数:
226
本期内容:1、SparkStreaming元数据清理详解2、SparkStreaming元数据清理源码解析一、如何研究SparkStreaming元数据清理操作DStream的时候会产生元数据,所以要解决RDD的数据清理工作就一定要从DStream入手。因为DStream是RDD的模板,DStream之间有依赖关系。DStream的操作产生..
分类:
其他好文 时间:
2016-06-02 00:58:53
阅读次数:
249