码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark学习(二):RDD编程
介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种方法: 1 ...
分类:其他好文   时间:2016-06-22 23:24:26    阅读次数:238
(版本定制)第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
本期内容:1.SparkStreaming中RDD为空处理2.StreamingContext程序停止方式SparkStreaming运用程序是根据我们设定的BatchDuration来产生RDD,产生的RDD存在partitons数据为空的情况,但是还是会执行foreachPartition,会获取计算资源,然后计算一下,这种情况就会浪费集群计算资..
分类:其他好文   时间:2016-06-14 16:16:58    阅读次数:183
spark-sql
rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame生成方式: 1)从rdd生成 2)读取hive表生成 ...
分类:数据库   时间:2016-06-12 10:45:05    阅读次数:166
Spark Streaming架构设计和运行机制总结
本期内容 : Spark Streaming中的架构设计和运行机制 Spark Streaming深度思考 Spark Streaming的本质就是在RDD基础之上加上Time ,由Time不断的运行触发周而复始的接收数据及产生Job处理数据。 一、 ReceiverTracker : Receiv ...
分类:其他好文   时间:2016-06-07 06:36:50    阅读次数:270
Spark Streaming中空RDD处理及流处理程序优雅的停止
本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断 ...
分类:其他好文   时间:2016-06-06 23:39:17    阅读次数:248
spark之combineByKey
combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] def combineByKey[C](crea ...
分类:其他好文   时间:2016-06-06 11:57:54    阅读次数:279
Java接入Spark之创建RDD的两种方式和操作RDD
Java接入Spark之创建RDD的两种方式和操作RDD...
分类:编程语言   时间:2016-06-03 19:27:57    阅读次数:1186
Spark MLib 基本统计汇总
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、 ...
分类:其他好文   时间:2016-06-02 20:05:59    阅读次数:420
spark版本定制十八:Spark Streaming中空RDD处理及流处理程序优雅的停止
本期内容: 1、Spark Streaming中RDD的空处理 2、StreamingContext程序的停止 一、Spark Streaming中RDD的空处理 案例代码: Scala代码: package com.dt.spark.sparkstreamingimport org.apache. ...
分类:其他好文   时间:2016-06-02 17:54:11    阅读次数:226
(版本定制)第16课:Spark Streaming源码解读之数据清理内幕彻底解密
本期内容:1、SparkStreaming元数据清理详解2、SparkStreaming元数据清理源码解析一、如何研究SparkStreaming元数据清理操作DStream的时候会产生元数据,所以要解决RDD的数据清理工作就一定要从DStream入手。因为DStream是RDD的模板,DStream之间有依赖关系。DStream的操作产生..
分类:其他好文   时间:2016-06-02 00:58:53    阅读次数:249
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!