码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
【2020/1/25】寒假自学——学习进度报告6
这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// ...
分类:其他好文   时间:2020-01-27 20:40:27    阅读次数:78
spark实验五
一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 ...
分类:其他好文   时间:2020-01-27 00:20:01    阅读次数:277
RDD转化操作记录(持续更新)
1、map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是 ...
分类:其他好文   时间:2020-01-27 00:15:27    阅读次数:101
Spark学习之路 (三)Spark之RDD[转]
RDD的概述 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时 ...
分类:其他好文   时间:2020-01-26 19:13:00    阅读次数:66
spark实验四
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:其他好文   时间:2020-01-25 15:37:40    阅读次数:356
【2020/1/24】寒假自学——学习进度报告5
接下来要写4篇的进度报告,准备把RDD编程和SparkSQL放在这几天一起弄掉(没回老家的大年三十稍微有些无聊)。 这一篇我想先笼统一下各方面的知识,省的有不理解的地方。 首先是RDD。 作为一个分布式的数据构造,RDD对我来说方法是抽象的,而且一般来说面向我的都是函数式的编程操作,很难体会到RDD ...
分类:其他好文   时间:2020-01-24 20:10:05    阅读次数:101
spark 大杂烩
累加器 序列化 宽窄依赖 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女 宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...
分类:其他好文   时间:2020-01-22 12:44:35    阅读次数:80
Spark与Hadoop的比较
Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既可以做离线批处理,也可以做实时处理(SparkStreaming) ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...
分类:其他好文   时间:2020-01-21 19:49:30    阅读次数:71
Spark union
比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...
分类:其他好文   时间:2020-01-19 11:04:30    阅读次数:97
Spark与Hadoop对比
一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD  ...
分类:其他好文   时间:2020-01-18 21:41:13    阅读次数:106
1327条   上一页 1 ... 20 21 22 23 24 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!