(一)进入spark-shell命令界面(默认使用scala的命令界面) 1,如果进入了spark安装目录则使用、 1,一台机器启动spark:./bin/spark-shell --master <master-url>命令可进入shell界面,master-url参数可为:local[*]使用逻 ...
分类:
其他好文 时间:
2020-01-29 00:48:18
阅读次数:
82
今天打算开始学习spark,年前重装了电脑系统,安装完系统,安装了软件工程的必备软件及数据库等 打开虚拟机时发现旧版本的wmware已经无法在新的win10系统上运行,Wmware pro15在win 10 1903上不能用 网上搜索教程发现在1903版本就已经出现这个问题,而我现在的版本是1909 ...
分类:
其他好文 时间:
2020-01-28 22:53:03
阅读次数:
62
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
1. 下载安装 官网下载 选择版本和type,这里为 spark-2.4.4-bin-without-hadoop.tgz 1.1 命令下载: 1 cd ~/software 2 wget http://apache.communilink.net/spark/spark-2.4.4/spark-2 ...
分类:
其他好文 时间:
2020-01-28 15:40:38
阅读次数:
53
例一:对目录下的单词文件进行单词统计 /word/first.txt: /word/second.txt: /word/third.txt: 运行结果: import java.io.File; import java.io.PrintWriter; import scala.io.Source; ...
分类:
其他好文 时间:
2020-01-28 13:46:18
阅读次数:
76
[toc] 使用模式匹配进行类型判断 在实际开发中,比如 spark 的源码中,大量的地方都是使用了模式匹配的方式来进行类型的判断,这种方式更加地简洁明了,而且代码得可维护性和可扩展性也非常的高 使用模式匹配,功能性上来说,与 isInstanceOf 一样,也是判断主要是该类以及该类的子类的对象即 ...
分类:
其他好文 时间:
2020-01-28 10:50:37
阅读次数:
70
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以今天记录下如何在Windows下进行spark编程。 首先 ...
分类:
其他好文 时间:
2020-01-27 23:46:50
阅读次数:
81
首先要配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。 linux虚拟机、ssh、Hadoop已经安装完毕,Scala,spark还未安装 然后进行java的学习,在以前的学习中java已经学习了一部分,这次还需要继续进行相应 ...
分类:
其他好文 时间:
2020-01-27 22:19:21
阅读次数:
85