引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, ...
分类:
数据库 时间:
2021-01-08 10:40:55
阅读次数:
0
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:
其他好文 时间:
2021-01-04 11:31:11
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:57
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:37
阅读次数:
0
由于之前已经搭建好了,今天是看视频回顾下,然后做下记录。 之前已经搭建好了Yarn集群,现在在Yarn集群上搭建spark。 1、安装spark 下载源码包:wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz ...
分类:
其他好文 时间:
2021-01-01 12:18:40
阅读次数:
0
背景:jenkins来构建前端服务,node版本需要10.22.0以上,而实际打包机上的版本为9.11.2,尝试通过nvm alias default v10.22.0修改默认版本解决 现象:jenkins job里shell执行显示node版本为v9.11.2,而使用同一用户进入打包机发现默认版本 ...
分类:
系统相关 时间:
2020-12-30 10:49:38
阅读次数:
0
查看字符集select userenv('language') from dual; 修改字符集 ORACLE11G 字符集更改(这里更改为AL32UTF8)更改步骤:1、用sysdba角色用户登录sqlplus: 命令行输入:sqlplus sys as sysdba2、输入口令,进入sqlplu ...
分类:
其他好文 时间:
2020-12-29 11:41:00
阅读次数:
0
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:
数据库 时间:
2020-12-29 11:28:30
阅读次数:
0
1,下载自己需要的版本 1,https://github.com/xuxueli/xxl-job 2,https://gitee.com/xuxueli0323/xxl-job/releases (墙内推荐) 3,墙内网络推荐使用第二个地址,笔者下 2.2.0 版本 2,整合到自己的项目 将下载好的 ...
分类:
其他好文 时间:
2020-12-28 11:41:00
阅读次数:
0
建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 ...
分类:
其他好文 时间:
2020-12-21 11:32:22
阅读次数:
0