定义数组array: //创建数组var arr1=Array(1,2,3)//初始化赋值数组var arr2=New Array[Int](3)//初始化指定元素为Int,长度为3不可变//遍历数组for(i<-arr1.indices)print(i)//i表示从1到arr1的长度为止的数字序列 ...
分类:
编程语言 时间:
2020-02-01 19:40:36
阅读次数:
86
Spark运行基本流程 (1)当一个 Spark Application 被提交时,首先需要为这个应用构建起基本的运行环境, 即由 Driver 创建一个 SparkContext进行资源的申请、任务的分配和监控。 SparkContext 会向资源管理器注册并申 请运行 Executor 的资源; ...
分类:
其他好文 时间:
2020-02-01 19:30:14
阅读次数:
62
今天往虚拟机上安装了Scala和spark,下面说一下安装的一些过程和遇到的一些问题。 首先,根据网上的Hadoop3.2+Scala2.12.1+Spark2.3.3环境搭建教程:https://www.jianshu.com/p/82ad3e15545a 了解基本安装流程,由于之前已经安装好了v ...
分类:
其他好文 时间:
2020-02-01 19:29:59
阅读次数:
59
[Toc] 一、spark基本常识 1、spark中的RDD是什么,有哪些特性? RDD(Resilient Distributed Dataset)叫做分布式数据集模式spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。 Resilient:表示弹性的,弹性表示 ...
分类:
其他好文 时间:
2020-02-01 16:09:42
阅读次数:
85
对于老师安排的任务,自己学习了Scala语言并使用它解决任务 对于问题进行了自己的理解以及求解,并对任务进行了分解以及总结了一下自己的解决方案 其中对键盘输入进行了一下总结(对于各种变量的输入)参考网址:https://blog.csdn.net/s294878304/article/details ...
分类:
编程语言 时间:
2020-02-01 16:02:10
阅读次数:
66
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10 ...
分类:
Web程序 时间:
2020-02-01 10:31:42
阅读次数:
386
Ubuntu14安装Scala 并编译输出“Hello, World!” 环境 Linux java version "1.8.0_162" 官网下载Scala 2.13.1 在Linux中选择.tgz进行下载,默认地址下载在Linux文件夹中的下载(~/下载/scala-2.13.1.tgz) 下 ...
分类:
其他好文 时间:
2020-01-31 22:45:26
阅读次数:
79
感觉今天也没整出什么大的进展,在学习eclipse编写spark程序过程中,虚拟机中因为eclipse版本号的问题安装不上spark和scala插件,鼓捣了半天也没有进展,在虚拟机中下载对应的版本因为网速过于慢最终也放弃了。最终从windows中下载了对应的eclipse版本,通过ftp传到了虚拟机 ...
分类:
其他好文 时间:
2020-01-31 22:25:14
阅读次数:
88
今天我主要了解了spark的一些专业名词以及相关特点: spark简介: 最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据计算框架,可用于构建大型,低延迟的数据分析应用程序 2014年打破了hadoop保持的基准排序记录 Spark具有以下特点: 运行速度快:使用DAG ...
分类:
其他好文 时间:
2020-01-31 20:45:10
阅读次数:
107
2.使用 Linux 系统的常用命令 启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考 本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin; 输入cd /usr/bin (2)查看目录/usr ...
分类:
系统相关 时间:
2020-01-31 20:32:26
阅读次数:
164