搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark学习（二）：RDD编程

介绍： RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区，这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象，以及自定义的对象。创建RDD的两种方法： 1 ...

分类：其他好文时间：2016-06-22 23:24:26 阅读次数：238

(版本定制)第18课：Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容：1.SparkStreaming中RDD为空处理2.StreamingContext程序停止方式SparkStreaming运用程序是根据我们设定的BatchDuration来产生RDD，产生的RDD存在partitons数据为空的情况，但是还是会执行foreachPartition，会获取计算资源，然后计算一下，这种情况就会浪费集群计算资..

分类：其他好文时间：2016-06-14 16:16:58 阅读次数：183

spark-sql

rdd生成方式： 1) 并行化 2) 通过读取文件api方法生成 DataFrame生成方式： 1)从rdd生成 2)读取hive表生成 ...

分类：数据库时间：2016-06-12 10:45:05 阅读次数：166

Spark Streaming架构设计和运行机制总结

本期内容 : Spark Streaming中的架构设计和运行机制 Spark Streaming深度思考 Spark Streaming的本质就是在RDD基础之上加上Time ，由Time不断的运行触发周而复始的接收数据及产生Job处理数据。一、 ReceiverTracker ： Receiv ...

分类：其他好文时间：2016-06-07 06:36:50 阅读次数：270

Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止由于Spark Streaming的每个BatchDuration都会不断的产生RDD，空RDD有很大概率的，如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断 ...

分类：其他好文时间：2016-06-06 23:39:17 阅读次数：248

spark之combineByKey

combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] def combineByKey[C](crea ...

分类：其他好文时间：2016-06-06 11:57:54 阅读次数：279

Java接入Spark之创建RDD的两种方式和操作RDD

Java接入Spark之创建RDD的两种方式和操作RDD...

分类：编程语言时间：2016-06-03 19:27:57 阅读次数：1186

Spark MLib 基本统计汇总

1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计，它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象，这个对象包含列式的最大值、最小值、 ...

分类：其他好文时间：2016-06-02 20:05:59 阅读次数：420

spark版本定制十八：Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容： 1、Spark Streaming中RDD的空处理 2、StreamingContext程序的停止一、Spark Streaming中RDD的空处理案例代码： Scala代码： package com.dt.spark.sparkstreamingimport org.apache. ...

分类：其他好文时间：2016-06-02 17:54:11 阅读次数：226

(版本定制)第16课：Spark Streaming源码解读之数据清理内幕彻底解密

本期内容：1、SparkStreaming元数据清理详解2、SparkStreaming元数据清理源码解析一、如何研究SparkStreaming元数据清理操作DStream的时候会产生元数据，所以要解决RDD的数据清理工作就一定要从DStream入手。因为DStream是RDD的模板，DStream之间有依赖关系。DStream的操作产生..

分类：其他好文时间：2016-06-02 00:58:53 阅读次数：249

共1327条上一页 1 ... 101 102 103 104 105 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)