Spark源码编译官方文档:https://spark.apache.org/docs/latest/building-spark.html用于编译源码的机器最好满足如下配置:CPU>=4核内存>=8G首先安装好JDK、Scala和Maven,由于安装都比较简单,本文就不演示了,我这里使用的JDK、Scala和Maven版本如下:[root@spark01~]#java-version
分类:
其他好文 时间:
2020-10-27 11:54:44
阅读次数:
43
草捏子最近开始学习Kafka。在学习前,给自己确定了下学习的范围,大致如下:理解Kafka的相关概念;掌握Kafka的基本API使用;了解Kafka的背后原理。后续将在这学习范围内输出一些相关文章。那么本文作为Kafka系列的第一篇文章,将从“理解Kafka的相关概念”说起。首先Kafka是什么。Kafka起初是由LinkedIn公司采用Scala语言开发的一个多分区、多副本且基于ZooKeepe
分类:
其他好文 时间:
2020-10-27 11:52:25
阅读次数:
31
办吴忠证〖溦: bzs8777〗哪里办吴忠证件〖電/溦:182.1648.9071同号〗本地办理各类.证.件《诚.信.第一/专.业.定.制》自从数据源读取数据,到最终写出数据到表,无处不是使用Spark RDD作为主要数据结构,甚至连普通的工具类,都使用Spark API实现,可以说Hudi就是用S ...
分类:
其他好文 时间:
2020-10-27 11:31:30
阅读次数:
27
spark sql 的function中有一个 instr 可以判断其中一列是否是另外一列的子字符 新增字段 判断一个字段是否包含另一个字段的字符串,如果包含值为1否则是0 Df.withColumn("newColumn",when(instr(col("aColumn"),col("bColum ...
分类:
数据库 时间:
2020-10-27 10:54:18
阅读次数:
55
package test /** * scala中的:: , +:, :+, :::, +++, 等操作; */ object listTest { def main(args: Array[String]): Unit = { val list = List(1,2,3) // :: 用于的是向队 ...
分类:
其他好文 时间:
2020-10-26 11:23:59
阅读次数:
20
在Scala中,元组是一个包含了固定数量的元素的值,且每个元素都有自己的类型。元组是不可变的。 元组特别适用于一个方法返回多个值的场景。 一个二元元组可以按如下方式创建: val ingredient = ("Sugar" , 25) 这个元组包含了一个 String 类型的元素和一个 Int 类型 ...
分类:
编程语言 时间:
2020-10-24 11:54:27
阅读次数:
42
原帖:https://blog.csdn.net/Damonhaus/article/details/76572971 问题:协同过滤 ALS算法。在测试过程中遇到了内存溢出的错误 解决办法1:降低迭代次数,20次 -> 10次 val model = new ALS().setRank(10).s ...
分类:
其他好文 时间:
2020-10-24 09:45:55
阅读次数:
24
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优和linux常见面试题 ...
分类:
系统相关 时间:
2020-10-20 16:23:11
阅读次数:
36
一、VectorAssembler package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spa ...
分类:
其他好文 时间:
2020-10-18 09:57:35
阅读次数:
15