一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 ...
分类:
其他好文 时间:
2020-01-24 17:13:10
阅读次数:
113
厦门大学林子雨,赖永炫,陶继平 编著 《Spark 编程基础(Scala 版)》 教材配套 机房上机实验指南 实验 1 Linux 系统的安装和常用命令 (版本号:2018 年 7 月 19 日版本) (题目) 主讲教师:林子雨 厦门大学数据库实验室 二零一八年七月目录 目录 一、实验目的..... ...
分类:
系统相关 时间:
2020-01-23 09:45:51
阅读次数:
181
spark的安装很简单(教程) 1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 。 请 ...
分类:
其他好文 时间:
2020-01-22 20:10:05
阅读次数:
124
上次是安装完成了,这次就来试试Spark的基本操作。 首先是运行Spark自带的实例SparkPi。 在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后—— 虽然计算结果有所偏差,但多少能证明Spark的计算能力可以使用。 第二个运行的就是和计算能力没太大关联的W ...
分类:
其他好文 时间:
2020-01-22 18:22:11
阅读次数:
53
spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定。 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh ...
分类:
其他好文 时间:
2020-01-22 18:07:12
阅读次数:
159
1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...
分类:
其他好文 时间:
2020-01-22 12:57:25
阅读次数:
62
累加器 序列化 宽窄依赖 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女 宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...
分类:
其他好文 时间:
2020-01-22 12:44:35
阅读次数:
80
Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既可以做离线批处理,也可以做实时处理(SparkStreaming) ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...
分类:
其他好文 时间:
2020-01-21 19:49:30
阅读次数:
71
环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...
分类:
其他好文 时间:
2020-01-21 10:33:56
阅读次数:
120
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 ...
分类:
其他好文 时间:
2020-01-20 09:27:00
阅读次数:
74