spark的udf和udaf的注册 一、udf 二、udaf 1. 弱类型的自定义聚合函数 是不安全的 1. 强类型的自定义聚合函数 程序运行时候会检查数据的类型,是安全的 ...
分类:
其他好文 时间:
2020-02-12 22:10:58
阅读次数:
135
实验2-Scala编程初级实践-题目-厦门大学-林子雨-Spark编程基础(Scala版) 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 D ...
分类:
其他好文 时间:
2020-02-12 22:04:19
阅读次数:
62
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:
其他好文 时间:
2020-02-12 16:16:22
阅读次数:
199
Hadoop和Apache Spark究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不 ...
分类:
其他好文 时间:
2020-02-12 00:20:53
阅读次数:
86
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 ...
分类:
其他好文 时间:
2020-02-11 13:16:04
阅读次数:
109
分析: 对sbt版本结果没有影响,但是会影响后续的打包编译!!!!要命、 解决方法: 运行命令:sudo gedit ~/.bashrc 最后一行添加:TERM="${TERM/xterm-256color/xterm-color" 最后:source ~/.bashrc 结果: OK,两个问题都解 ...
分类:
其他好文 时间:
2020-02-11 10:09:21
阅读次数:
109
条件:maven、java应用程序代码、pom.xml -pom.xml文件 1 <project> 2 <groupId>edu.berkeley</groupId> 3 <artifactId>simple-project</artifactId> 4 <modelVersion>4.0.0</ ...
分类:
编程语言 时间:
2020-02-11 09:47:08
阅读次数:
80
启动hadoop -ls:显示文件夹内容 -put:上传到hdfs上 -cat:显示文件内容 hdfs文件读取成功:三种方式 ...
分类:
系统相关 时间:
2020-02-11 09:38:51
阅读次数:
116
词频统计: textFile包含了多行文本内容: textFile.flatMap(line => line.split(” “))会遍历textFile中的每行文本内容,当遍历到其中一行文本内容时,会把文本内容赋值给变量line,并执行Lamda表达式line => line.split(” “) ...
分类:
其他好文 时间:
2020-02-11 09:32:45
阅读次数:
65
分析: val textFile = Sc.textFile(“file///usr/local/spark/...”)加载本地文件,必须以“file:///”开头 Spark的惰性机制:执行上面的命令不会马上显示结果 只有遇到行动类型的操作,才会从头到尾执行所有操作,如:textFile.firs ...
分类:
其他好文 时间:
2020-02-11 09:21:30
阅读次数:
119