今天按照实验三进行了相关的操作,实验三之前的是关于hadoop 以及hdfs的相关命令的使用,也包括Hadoop以及spark的安装,我之前就已经完成了相关环境的配置,所以我今天直接做了实验三中的spark shell命令的一部分,今天编程的部分因为之前理解了scala的一些编程方法所以今天进行的很 ...
分类:
系统相关 时间:
2020-02-10 19:42:49
阅读次数:
94
今天主要学习了实验 7 Spark 机器学习库 MLlib 编程实践, 主要代码: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Ve ...
分类:
其他好文 时间:
2020-02-10 16:34:34
阅读次数:
132
今天准备安装了pyecharts,官网下载速度太慢了,下了半天还没有下载完成,简单了解了一下用pyecharts库画图的方法,继续配置eclipse的环境,因为停电的原因进度太慢了,明天继续努力。 ...
分类:
其他好文 时间:
2020-02-10 00:03:45
阅读次数:
69
今天完成了实验五第三问,实验六也进行了一点。明天继续进行实验六。 编程实现利用 DataFrame 读写 MySQL 的数据 (1) 在 MySQL 数据库中新建数据库 sparktest,再建表 employee,包含下列两行数据; 表 1 employee 表原有数据 (2) 配置Spark通过 ...
分类:
其他好文 时间:
2020-02-09 22:07:28
阅读次数:
87
Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列, ...
分类:
数据库 时间:
2020-02-09 20:39:48
阅读次数:
165
一、大数据spark 跟着b站的尚硅谷大数据往后学习了9个知识点 视频号:av62992342 内容:累加器与广播变量、初步认识SparkSQL 课程学习进度:63/126 二、《一线架构师实践指南》阅读 阅读了第九章 高层分割(两种实践套路、概念架构与贯穿案例) ...
分类:
其他好文 时间:
2020-02-09 20:08:12
阅读次数:
57
一、Connect DataStream,DataStream -> ConnectedStream,连接两个保持他们类型的数据流,两个数据流被Connect之后,只是被放在了同一个流中,内部依然保持各自的数据和形式 不发生任何变化,两个流相互独立。 import org.apache.flink. ...
分类:
其他好文 时间:
2020-02-09 16:28:07
阅读次数:
97
今天主要解决了实验五未解决的问题,前天在做实验五spark连接mysql时出现找不到jar包的问题,看了网上的讲解,调整了一下路径,有人说jar包要放在同名的一个文件夹里,实际上jar包应该直接放在spark安装目录的jars目录下就可,这样就可以连接上。 3. 编程实现利用 DataFrame 读 ...
分类:
其他好文 时间:
2020-02-09 14:48:16
阅读次数:
68
一、大数据spark 跟着b站的尚硅谷大数据往后学习了7个知识点 视频号:av62992342 内容:学习了RDD的一些知识,包括保存读取和操作数据库 课程学习进度:54/126 二、《一线架构师实践指南》阅读 阅读了第八章 初步设计(主要讲述了鲁棒图) ...
分类:
其他好文 时间:
2020-02-08 22:00:13
阅读次数:
67
什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 RDD和DataFrame的区别 DataFrame与RDD的主要区别在于,DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有 ...
分类:
其他好文 时间:
2020-02-08 17:12:33
阅读次数:
58