词频统计: textFile包含了多行文本内容: textFile.flatMap(line => line.split(” “))会遍历textFile中的每行文本内容,当遍历到其中一行文本内容时,会把文本内容赋值给变量line,并执行Lamda表达式line => line.split(” “) ...
分类:
其他好文 时间:
2020-02-11 09:32:45
阅读次数:
65
分析: val textFile = Sc.textFile(“file///usr/local/spark/...”)加载本地文件,必须以“file:///”开头 Spark的惰性机制:执行上面的命令不会马上显示结果 只有遇到行动类型的操作,才会从头到尾执行所有操作,如:textFile.firs ...
分类:
其他好文 时间:
2020-02-11 09:21:30
阅读次数:
119
今天按照实验三进行了相关的操作,实验三之前的是关于hadoop 以及hdfs的相关命令的使用,也包括Hadoop以及spark的安装,我之前就已经完成了相关环境的配置,所以我今天直接做了实验三中的spark shell命令的一部分,今天编程的部分因为之前理解了scala的一些编程方法所以今天进行的很 ...
分类:
系统相关 时间:
2020-02-10 19:42:49
阅读次数:
94
今天主要学习了实验 7 Spark 机器学习库 MLlib 编程实践, 主要代码: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Ve ...
分类:
其他好文 时间:
2020-02-10 16:34:34
阅读次数:
132
今天准备安装了pyecharts,官网下载速度太慢了,下了半天还没有下载完成,简单了解了一下用pyecharts库画图的方法,继续配置eclipse的环境,因为停电的原因进度太慢了,明天继续努力。 ...
分类:
其他好文 时间:
2020-02-10 00:03:45
阅读次数:
69
今天完成了实验五第三问,实验六也进行了一点。明天继续进行实验六。 编程实现利用 DataFrame 读写 MySQL 的数据 (1) 在 MySQL 数据库中新建数据库 sparktest,再建表 employee,包含下列两行数据; 表 1 employee 表原有数据 (2) 配置Spark通过 ...
分类:
其他好文 时间:
2020-02-09 22:07:28
阅读次数:
87
Spark SQL基本操作 (1) 查询所有数据; (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除id字段; (4) 筛选出age>30的记录; (5) 将数据按age分组; (6) 将数据按name升序排列; (7) 取出前3行数据; (8) 查询所有记录的name列, ...
分类:
数据库 时间:
2020-02-09 20:39:48
阅读次数:
165
一、大数据spark 跟着b站的尚硅谷大数据往后学习了9个知识点 视频号:av62992342 内容:累加器与广播变量、初步认识SparkSQL 课程学习进度:63/126 二、《一线架构师实践指南》阅读 阅读了第九章 高层分割(两种实践套路、概念架构与贯穿案例) ...
分类:
其他好文 时间:
2020-02-09 20:08:12
阅读次数:
57
一、Connect DataStream,DataStream -> ConnectedStream,连接两个保持他们类型的数据流,两个数据流被Connect之后,只是被放在了同一个流中,内部依然保持各自的数据和形式 不发生任何变化,两个流相互独立。 import org.apache.flink. ...
分类:
其他好文 时间:
2020-02-09 16:28:07
阅读次数:
97
今天主要解决了实验五未解决的问题,前天在做实验五spark连接mysql时出现找不到jar包的问题,看了网上的讲解,调整了一下路径,有人说jar包要放在同名的一个文件夹里,实际上jar包应该直接放在spark安装目录的jars目录下就可,这样就可以连接上。 3. 编程实现利用 DataFrame 读 ...
分类:
其他好文 时间:
2020-02-09 14:48:16
阅读次数:
68