前两天试了下 Flink SQL 写 Hive,对 Sink 部分写数据到 HDFS 的部分比较疑惑,特别是基于 checkpoint 的文件提交,所以看了下 StreamingFileSink 的源码(Flink SQL 写 hive 复用了这部分代码) StreamingFileSink 是 1 ...
分类:
其他好文 时间:
2020-11-01 20:49:03
阅读次数:
18
Spark源码编译官方文档:https://spark.apache.org/docs/latest/building-spark.html用于编译源码的机器最好满足如下配置:CPU>=4核内存>=8G首先安装好JDK、Scala和Maven,由于安装都比较简单,本文就不演示了,我这里使用的JDK、Scala和Maven版本如下:[root@spark01~]#java-version
分类:
其他好文 时间:
2020-10-27 11:54:44
阅读次数:
43
办吴忠证〖溦: bzs8777〗哪里办吴忠证件〖電/溦:182.1648.9071同号〗本地办理各类.证.件《诚.信.第一/专.业.定.制》自从数据源读取数据,到最终写出数据到表,无处不是使用Spark RDD作为主要数据结构,甚至连普通的工具类,都使用Spark API实现,可以说Hudi就是用S ...
分类:
其他好文 时间:
2020-10-27 11:31:30
阅读次数:
27
ZIP归档可以把一个或多个文件压缩成占用空间更小的单一文件。当你想释放硬盘空间,或者需要通过邮件和《信息》发送多个文件时,ZIP的重要性不言而喻。macOS的《访达》内置了ZIP压缩功能,使用方法非常简单。下面就来看看它的基本用法,以及一些进阶功能。一键压缩文件压缩单个文件或文件夹时,按住Control点按该文件,然后在弹出菜单中选择压缩即可。压缩后的归档文件与原文件同名,但带有.zip后缀。解压
分类:
其他好文 时间:
2020-10-27 11:25:10
阅读次数:
33
spark sql 的function中有一个 instr 可以判断其中一列是否是另外一列的子字符 新增字段 判断一个字段是否包含另一个字段的字符串,如果包含值为1否则是0 Df.withColumn("newColumn",when(instr(col("aColumn"),col("bColum ...
分类:
数据库 时间:
2020-10-27 10:54:18
阅读次数:
55
原帖:https://blog.csdn.net/Damonhaus/article/details/76572971 问题:协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误 解决办法1:降低迭代次数,20次 -> 10次 val model = new ALS().setRank(10).s ...
分类:
其他好文 时间:
2020-10-24 09:45:55
阅读次数:
24
DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳;
DataNode启动后向NameNode服务注册,并周期性的向NameNode上报所有的数据块元数据信息;
分类:
其他好文 时间:
2020-10-21 20:51:41
阅读次数:
21
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优和linux常见面试题 ...
分类:
系统相关 时间:
2020-10-20 16:23:11
阅读次数:
36
hive 建表语法 内部表: create table fzname (id int,name string,age int,tel string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 1 2 3 4 5 ...
分类:
其他好文 时间:
2020-10-18 16:40:39
阅读次数:
25