1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:
其他好文 时间:
2021-01-04 11:31:11
阅读次数:
0
在代码中我们可以只加上标签@Data 而不用get,set方法; val : 和 scala 中 val 同名, 可以在运行时确定类型; @NonNull : 注解在参数上, 如果该类参数为 null , 就会报出异常, throw new NullPointException(参数名) @Clea ...
分类:
其他好文 时间:
2021-01-04 11:15:37
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:57
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:37
阅读次数:
0
由于之前已经搭建好了,今天是看视频回顾下,然后做下记录。 之前已经搭建好了Yarn集群,现在在Yarn集群上搭建spark。 1、安装spark 下载源码包:wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz ...
分类:
其他好文 时间:
2021-01-01 12:18:40
阅读次数:
0
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:
数据库 时间:
2020-12-29 11:28:30
阅读次数:
0
处理数据常用的语言,使用基本的api处理一个wordcount 读取文件,找出单词(转大写)出现次数,并排序,获取TopK数据。 scala语言 def main(args: Array[String]): Unit = { //读取文件 val source: BufferedSource = S ...
分类:
编程语言 时间:
2020-12-21 11:45:54
阅读次数:
0
建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 ...
分类:
其他好文 时间:
2020-12-21 11:32:22
阅读次数:
0
Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 ...
分类:
其他好文 时间:
2020-12-19 13:14:39
阅读次数:
1
本节课主要介绍如何在 Serverless Kubernetes 集群中低成本运行 Spark 数据计算。首先简单介绍下阿里云 Serverless Kubernetes 和 弹性容器实例 ECI 这两款产品;然后介绍 Spark on Kubernetes;最后进行实际演示。
分类:
其他好文 时间:
2020-12-17 12:22:18
阅读次数:
2