一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
1. 下载安装 官网下载 选择版本和type,这里为 spark-2.4.4-bin-without-hadoop.tgz 1.1 命令下载: 1 cd ~/software 2 wget http://apache.communilink.net/spark/spark-2.4.4/spark-2 ...
分类:
其他好文 时间:
2020-01-28 15:40:38
阅读次数:
53
例一:对目录下的单词文件进行单词统计 /word/first.txt: /word/second.txt: /word/third.txt: 运行结果: import java.io.File; import java.io.PrintWriter; import scala.io.Source; ...
分类:
其他好文 时间:
2020-01-28 13:46:18
阅读次数:
76
[toc] 使用模式匹配进行类型判断 在实际开发中,比如 spark 的源码中,大量的地方都是使用了模式匹配的方式来进行类型的判断,这种方式更加地简洁明了,而且代码得可维护性和可扩展性也非常的高 使用模式匹配,功能性上来说,与 isInstanceOf 一样,也是判断主要是该类以及该类的子类的对象即 ...
分类:
其他好文 时间:
2020-01-28 10:50:37
阅读次数:
70
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以今天记录下如何在Windows下进行spark编程。 首先 ...
分类:
其他好文 时间:
2020-01-27 23:46:50
阅读次数:
81
首先要配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。 linux虚拟机、ssh、Hadoop已经安装完毕,Scala,spark还未安装 然后进行java的学习,在以前的学习中java已经学习了一部分,这次还需要继续进行相应 ...
分类:
其他好文 时间:
2020-01-27 22:19:21
阅读次数:
85
下载完Spark后,启动spark shell 然后建在了spark自带的本地测试文件,以及简单的RDD操作和退出spark shell 并且下载了 独立应用程序编程 scala独立应用编程 在安装sbt中耗时很长 安装的时候耗时很长,安装完成后 检测sbt不可用,心态爆炸 独立应用程序编程 ...
分类:
其他好文 时间:
2020-01-27 22:16:29
阅读次数:
80
这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// ...
分类:
其他好文 时间:
2020-01-27 20:40:27
阅读次数:
78
一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 ...
分类:
其他好文 时间:
2020-01-27 00:20:01
阅读次数:
277