搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

【2020/1/25】寒假自学——学习进度报告6

这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合（数组）创建RDD，两种都是很方便的操作方式。应对实验，我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。在pyspark中使用—— >>> students=sc.textFile("file:// ...

分类：其他好文时间：2020-01-27 20:40:27 阅读次数：78

spark实验五

一、实验目的（1）通过实验掌握 Spark SQL 的基本编程方法；（2）熟悉 RDD 到 DataFrame 的转化方法；（3）熟悉利用 Spark SQL 管理来自不同数据源的数据。二、实验平台操作系统： Ubuntu16.04 Spark 版本：2.1.0 数据库：MySQL 三、实 ...

分类：其他好文时间：2020-01-27 00:20:01 阅读次数：277

RDD转化操作记录（持续更新）

1、map（function） map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是 ...

分类：其他好文时间：2020-01-27 00:15:27 阅读次数：101

Spark学习之路（三）Spark之RDD[转]

RDD的概述什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时 ...

分类：其他好文时间：2020-01-26 19:13:00 阅读次数：66

spark实验四

一、实验目的（1）熟悉 Spark 的 RDD 基本操作及键值对操作；（2）熟悉使用 RDD 编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04 Spark 版本：2.1.0 三、实验内容和要求 1．spark-shell 交互式编程请到本教程官网的“下载专区”的“数 ...

分类：其他好文时间：2020-01-25 15:37:40 阅读次数：356

【2020/1/24】寒假自学——学习进度报告5

接下来要写4篇的进度报告，准备把RDD编程和SparkSQL放在这几天一起弄掉（没回老家的大年三十稍微有些无聊）。这一篇我想先笼统一下各方面的知识，省的有不理解的地方。首先是RDD。作为一个分布式的数据构造，RDD对我来说方法是抽象的，而且一般来说面向我的都是函数式的编程操作，很难体会到RDD ...

分类：其他好文时间：2020-01-24 20:10:05 阅读次数：101

spark 大杂烩

累加器序列化宽窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...

分类：其他好文时间：2020-01-22 12:44:35 阅读次数：80

Spark与Hadoop的比较

Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既可以做离线批处理，也可以做实时处理（SparkStreaming） ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...

分类：其他好文时间：2020-01-21 19:49:30 阅读次数：71

Spark union

比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...

分类：其他好文时间：2020-01-19 11:04:30 阅读次数：97

Spark与Hadoop对比

一、运行速度方面： Spark把中间数据放到内存中，迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上，这样会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。二、容错方面： Spark引进了弹性分布式数据集RDD ...

分类：其他好文时间：2020-01-18 21:41:13 阅读次数：106

共1327条上一页 1 ... 20 21 22 23 24 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)