码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark版本定制第8天:RDD生成生命周期彻底
本期内容: 1 RDD生成生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark St ...
分类:其他好文   时间:2016-05-22 14:00:31    阅读次数:147
Spark发行笔记8:解读Spark Streaming RDD的全生命周期
本节主要内容: 一、DStream与RDD关系的彻底的研究 二、StreamingRDD的生成彻底研究 Spark Streaming RDD思考三个关键的问题: RDD本身是基本对象,根据一定时间定时产生RDD的对象,随着时间的积累,不对其管理的话会导致内存会溢出,所以在BatchDuration ...
分类:其他好文   时间:2016-05-22 12:04:40    阅读次数:121
Spark笔记:复杂RDD的API的理解(上)
本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala语法。 1) aggregate(zeroValue)(seqOp,combOp) 该函数的功能和r ...
分类:Windows程序   时间:2016-05-20 23:35:41    阅读次数:381
spark编程指南
去年学习Spark了一段时间,今年捡回来,发现好多东西都已经忘记了。现在讲官方网站上的东西转诉过来,回顾并记录下来。从RDD、action、transformation到persist和共享变量,很多核心概念,翻译的过程中增加了影响,下次忘记了,再看看这篇文章。...
分类:其他好文   时间:2016-05-19 15:14:45    阅读次数:202
Spark笔记:RDD基本操作(上)
本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言 ...
分类:其他好文   时间:2016-05-19 00:05:25    阅读次数:641
Spark RDD详解
1、RDD是什么RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD的描述 Internally, each RDD is characterized by five main properties:A list of partitions A fu...
分类:其他好文   时间:2016-05-18 19:45:30    阅读次数:1064
Spark的RDD简单操作
0、Spark的wc.note package RddApiimport org.apache.spark.{SparkConf, SparkContext}/** * hadoop * spark * tachyon * hadoop * hbase * spark *//** * Created by Administrator on 2016/4/2...
分类:其他好文   时间:2016-05-18 19:20:18    阅读次数:259
6.Spark streaming技术内幕 : Job动态生成原理与源码解析
原创文章,转载请注明:转载自 周岳飞博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序的运行过程是将DStream的操作转化成RDD的操作,Spark Streaming 和 Spark Core 的关系如下图(图片来自spark官网)Spar... ...
分类:其他好文   时间:2016-05-18 00:25:51    阅读次数:344
Spark CheckPoint彻底解密(41)
一、Checkpoint到底是什么?1,Spark在生产环境下经常会面临Tranformations的RDD非常多(例如一个Job中包含1万个RDD)或者具体Tranformation产生的RDD本身计算特别复杂和耗时(例如计算时常超过1个小时),此时我们必须考虑对计算结果数据的持久化;2,Spark是擅长多步骤迭代,..
分类:其他好文   时间:2016-05-15 19:56:01    阅读次数:173
第19课:Spark高级排序彻底解密
本节课内容:1、基础排序算法实战2、二次排序算法实战3、更高级别排序算法4、排序算法内幕解密排序在Spark运用程序中使用的比较多,且维度也不一样,如二次排序,三次排序等,在机器学习算法中经常碰到,所以非常重要,必须掌握!所谓二次排序,就是根据两列值进行排序,如下测..
分类:编程语言   时间:2016-05-15 00:43:19    阅读次数:424
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!