RDD、DataFrame与DataSet三者有许多的共性,都有各自使用的场景,常常需要在三者之间进行转换DataFrame/Dataset 转 RDD:val rdd1=testDF.rddval rdd2=testDS.rdd RDD 转 DataFrame:// 一般用元组把一行的数据写在一起... ...
分类:
其他好文 时间:
2020-01-28 23:32:20
阅读次数:
99
今天打算开始学习spark,年前重装了电脑系统,安装完系统,安装了软件工程的必备软件及数据库等 打开虚拟机时发现旧版本的wmware已经无法在新的win10系统上运行,Wmware pro15在win 10 1903上不能用 网上搜索教程发现在1903版本就已经出现这个问题,而我现在的版本是1909 ...
分类:
其他好文 时间:
2020-01-28 22:53:03
阅读次数:
62
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:centos6.4; Scala版本:2.10.6.; Hadoop 版本 ...
分类:
其他好文 时间:
2020-01-28 19:11:15
阅读次数:
94
1. 下载安装 官网下载 选择版本和type,这里为 spark-2.4.4-bin-without-hadoop.tgz 1.1 命令下载: 1 cd ~/software 2 wget http://apache.communilink.net/spark/spark-2.4.4/spark-2 ...
分类:
其他好文 时间:
2020-01-28 15:40:38
阅读次数:
53
例一:对目录下的单词文件进行单词统计 /word/first.txt: /word/second.txt: /word/third.txt: 运行结果: import java.io.File; import java.io.PrintWriter; import scala.io.Source; ...
分类:
其他好文 时间:
2020-01-28 13:46:18
阅读次数:
76
[toc] 使用模式匹配进行类型判断 在实际开发中,比如 spark 的源码中,大量的地方都是使用了模式匹配的方式来进行类型的判断,这种方式更加地简洁明了,而且代码得可维护性和可扩展性也非常的高 使用模式匹配,功能性上来说,与 isInstanceOf 一样,也是判断主要是该类以及该类的子类的对象即 ...
分类:
其他好文 时间:
2020-01-28 10:50:37
阅读次数:
70
业务技术架构 架构实现 总的来说我的通用架构还是以三层架构为基础进行演变的,在经典的三层架构中,最上层的是controller,中间是service,下层是dao。 在微服务的架构中,最上层是网关层,controller只是网关的一种,中间是业务层,service只是业务层的入口,最下层是基础层,d ...
分类:
其他好文 时间:
2020-01-28 09:39:25
阅读次数:
77
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以今天记录下如何在Windows下进行spark编程。 首先 ...
分类:
其他好文 时间:
2020-01-27 23:46:50
阅读次数:
81