1.该系总共有多少学生 val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt") val par = lines.map(row=>row.split(",")(0)) val distinct_par = ...
分类:
系统相关 时间:
2020-02-06 22:44:07
阅读次数:
106
今天完成了实验任务三,主要学习了其中的Spark读取文件系统的数据。 在 spark-shell 中读取HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数; scala>val textFile=sc.textFile("hdfs: ...
分类:
其他好文 时间:
2020-02-05 13:41:27
阅读次数:
70
今天你完成实验四前两个实验。但是!!!在跟eclipse的scala插件做斗争的时候,把hadoop的插件给搞没了,按着林子雨老师的教程走了一遍还是不行,不知不觉又搞了一下午,还是没解决。明天把实验四完成,做一些实验五,希望明天可以把eclipse的问题解决。 1.spark-shell 交互式编程 ...
分类:
其他好文 时间:
2020-02-03 22:31:42
阅读次数:
159
今天完成了实验四,对于spark-shell交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解 之前安装完sbt后对于后面的打包需要下载一些文件一直失败,后来我把 在网上查询解决方案,找了很久终于 教程里spark-core 换成了spark-sql 然后就下载成功了 ...
分类:
其他好文 时间:
2020-02-03 13:55:53
阅读次数:
72
Spark提供的数据集操作类型有很多种,大致分为:转换操作和行动操作两大类,即对RDD的操作,RDD相关操作较多,这里不做表述。此外各个处理节点之间的通信模型不再像Hadoop只有Shuffle一种模式,用户可以命名、物化,控制中间结果的存储、分区等。下载完Spark后,启动spark shell ...
分类:
其他好文 时间:
2020-02-02 23:31:13
阅读次数:
247
使用 Spark Shell 编写代码 启动Spark Shell: 加载txt文件: 简单的RDD操作: //获取RDD文件textFile的第一行内容textFile.first() //获取RDD文件textFile所有项的计数textFile.count() //抽取含有“Spark”的行, ...
分类:
其他好文 时间:
2020-02-02 13:35:21
阅读次数:
101
(一)进入spark-shell命令界面(默认使用scala的命令界面) 1,如果进入了spark安装目录则使用、 1,一台机器启动spark:./bin/spark-shell --master <master-url>命令可进入shell界面,master-url参数可为:local[*]使用逻 ...
分类:
其他好文 时间:
2020-01-29 00:48:18
阅读次数:
82
下载完Spark后,启动spark shell 然后建在了spark自带的本地测试文件,以及简单的RDD操作和退出spark shell 并且下载了 独立应用程序编程 scala独立应用编程 在安装sbt中耗时很长 安装的时候耗时很长,安装完成后 检测sbt不可用,心态爆炸 独立应用程序编程 ...
分类:
其他好文 时间:
2020-01-27 22:16:29
阅读次数:
80
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:
其他好文 时间:
2020-01-25 15:37:40
阅读次数:
356
环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...
分类:
其他好文 时间:
2020-01-21 10:33:56
阅读次数:
120