Transformation算子 基本的初始化 (1)java (2)scala map、flatMap、mapParations、mapPartitionsWithIndex map jdk7 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从 ...
分类:
其他好文 时间:
2020-01-26 18:56:01
阅读次数:
73
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:
其他好文 时间:
2020-01-25 15:37:40
阅读次数:
356
job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:
其他好文 时间:
2020-01-25 00:56:57
阅读次数:
119
[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 ...
分类:
其他好文 时间:
2020-01-24 22:24:29
阅读次数:
95
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 ...
分类:
其他好文 时间:
2020-01-24 17:13:10
阅读次数:
113
厦门大学林子雨,赖永炫,陶继平 编著 《Spark 编程基础(Scala 版)》 教材配套 机房上机实验指南 实验 1 Linux 系统的安装和常用命令 (版本号:2018 年 7 月 19 日版本) (题目) 主讲教师:林子雨 厦门大学数据库实验室 二零一八年七月目录 目录 一、实验目的..... ...
分类:
系统相关 时间:
2020-01-23 09:45:51
阅读次数:
181
spark的安装很简单(教程) 1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 。 请 ...
分类:
其他好文 时间:
2020-01-22 20:10:05
阅读次数:
124
上次是安装完成了,这次就来试试Spark的基本操作。 首先是运行Spark自带的实例SparkPi。 在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后—— 虽然计算结果有所偏差,但多少能证明Spark的计算能力可以使用。 第二个运行的就是和计算能力没太大关联的W ...
分类:
其他好文 时间:
2020-01-22 18:22:11
阅读次数:
53
spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定。 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh ...
分类:
其他好文 时间:
2020-01-22 18:07:12
阅读次数:
159
1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...
分类:
其他好文 时间:
2020-01-22 12:57:25
阅读次数:
62