安装sbt sbt是一款Spark用来对scala编写程序进行打包的工具,下载地址https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar 下载后,执行如下命令拷贝至 ...
分类:
其他好文 时间:
2020-02-13 19:32:48
阅读次数:
73
一、大数据spark 跟着b站的尚硅谷大数据往后学习了8个知识点。 同时把scala的知识点学习了一下。 视频号: av62992342 av64039811 内容:Spark内核 课程学习进度:87/126 二、《一线架构师实践指南》阅读 阅读了第十四章 物理架构、运行架构、开发架构 ...
分类:
其他好文 时间:
2020-02-12 22:28:24
阅读次数:
64
spark的udf和udaf的注册 一、udf 二、udaf 1. 弱类型的自定义聚合函数 是不安全的 1. 强类型的自定义聚合函数 程序运行时候会检查数据的类型,是安全的 ...
分类:
其他好文 时间:
2020-02-12 22:10:58
阅读次数:
135
实验2-Scala编程初级实践-题目-厦门大学-林子雨-Spark编程基础(Scala版) 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 D ...
分类:
其他好文 时间:
2020-02-12 22:04:19
阅读次数:
62
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:
其他好文 时间:
2020-02-12 16:16:22
阅读次数:
199
Hadoop和Apache Spark究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不 ...
分类:
其他好文 时间:
2020-02-12 00:20:53
阅读次数:
86
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 ...
分类:
其他好文 时间:
2020-02-11 13:16:04
阅读次数:
109
分析: 对sbt版本结果没有影响,但是会影响后续的打包编译!!!!要命、 解决方法: 运行命令:sudo gedit ~/.bashrc 最后一行添加:TERM="${TERM/xterm-256color/xterm-color" 最后:source ~/.bashrc 结果: OK,两个问题都解 ...
分类:
其他好文 时间:
2020-02-11 10:09:21
阅读次数:
109
条件:maven、java应用程序代码、pom.xml -pom.xml文件 1 <project> 2 <groupId>edu.berkeley</groupId> 3 <artifactId>simple-project</artifactId> 4 <modelVersion>4.0.0</ ...
分类:
编程语言 时间:
2020-02-11 09:47:08
阅读次数:
80
启动hadoop -ls:显示文件夹内容 -put:上传到hdfs上 -cat:显示文件内容 hdfs文件读取成功:三种方式 ...
分类:
系统相关 时间:
2020-02-11 09:38:51
阅读次数:
116