搜索关键字：spark rdd，搜索到7287个结果！码迷,mamicode.com！

spark实验3

一、实验目的（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；（2）熟悉 HDFS 的基本使用方法；（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。二、实验平台操作系统：Ubuntu16.04； Spark 版本：2.1.0； Hadoop 版 ...

分类：其他好文时间：2020-01-24 17:13:10 阅读次数：113

实验 1 Linux 系统的安装和常用命令

厦门大学林子雨，赖永炫，陶继平编著《Spark 编程基础（Scala 版）》教材配套机房上机实验指南实验 1 Linux 系统的安装和常用命令（版本号：2018 年 7 月 19 日版本）（题目）主讲教师：林子雨厦门大学数据库实验室二零一八年七月目录目录一、实验目的..... ...

分类：系统相关时间：2020-01-23 09:45:51 阅读次数：181

寒假学习（二）spark学习

spark的安装很简单（教程） 1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn，直到 Sn 刚好大于或等于 q 为止，其中 q 为大于 0 的整数，其值通过键盘输入。例如，若 q 的值为 50.0 ，则输出应为： Sn=50.416695 。请 ...

分类：其他好文时间：2020-01-22 20:10:05 阅读次数：124

【2020/1/18】寒假自学——学习进度报告4

上次是安装完成了，这次就来试试Spark的基本操作。首先是运行Spark自带的实例SparkPi。在配置好环境变量的时候可以直接运行，但可以看到虽然运行成功但信息太过复杂，所以检索之后—— 虽然计算结果有所偏差，但多少能证明Spark的计算能力可以使用。第二个运行的就是和计算能力没太大关联的W ...

分类：其他好文时间：2020-01-22 18:22:11 阅读次数：53

spark动态资源（executor）分配

spark动态资源调整其实也就是说的executor数目支持动态增减，动态增减是根据spark应用的实际负载情况来决定。开启动态资源调整需要（on yarn情况下） 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh ...

分类：其他好文时间：2020-01-22 18:07:12 阅读次数：159

Spark 读取 HBase 数据

1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...

分类：其他好文时间：2020-01-22 12:57:25 阅读次数：62

spark 大杂烩

累加器序列化宽窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...

分类：其他好文时间：2020-01-22 12:44:35 阅读次数：80

Spark与Hadoop的比较

Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既可以做离线批处理，也可以做实时处理（SparkStreaming） ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...

分类：其他好文时间：2020-01-21 19:49:30 阅读次数：71

spark on yarn container分配极端倾斜

环境：CDH5.13.3 spark2.3 在提交任务之后，发现executor运行少量几台nodemanager，而其他nodemanager没有executor分配。通过spark-shell模拟如下：第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...

分类：其他好文时间：2020-01-21 10:33:56 阅读次数：120

由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目，这里由于个人电脑配置问题，我一直都是用的Kaggle的kernel，但是我们知道kernel的内存限制是16G，如下：在处理数据过程中发现会超出，虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架，但是依 ...

分类：其他好文时间：2020-01-20 09:27:00 阅读次数：74

共7287条上一页 1 ... 73 74 75 76 77 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)