一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD ...
分类:
其他好文 时间:
2020-05-02 14:51:21
阅读次数:
56
1 package com.ds 2 3 import org.apache.spark.sql.{Dataset, SparkSession} 4 5 object DataSet { 6 7 def main(args: Array[String]): Unit = { 8 val spark: ...
分类:
其他好文 时间:
2020-05-02 12:10:05
阅读次数:
46
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:
数据库 时间:
2020-05-02 11:31:58
阅读次数:
63
流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 ...
分类:
其他好文 时间:
2020-05-01 17:08:46
阅读次数:
96
什么是纯函数 纯函数是函数式编程中的一个根本概念. 纯函数要求一个函数输入对应输出, 没有其它任何副作用, 且引用透明. 过程: 没有返回值, 只有副作用的函数 一个纯函数有以下要求: 没有副作用 不向控制台打印 不向文件写入数据 不更改外部变量 不向其它文件系统写入数据 引用透明 这个函数执行结果... ...
分类:
其他好文 时间:
2020-05-01 11:06:27
阅读次数:
53
1. continue import scala.util.control.Breaks._for(){ breakable{ if(){ break // continue } } } 2.break import scala.util.control.Breaks._breakable{ for ...
分类:
其他好文 时间:
2020-04-30 15:36:57
阅读次数:
102
相关函数: 操作DataFrame 1.data.printSchema:打印出每一列的名称和类型 2.data.show(numRows:Int):输出data 3.Data.head(n:int).foreach(println): 这个函数也需要输入一个参数标明需要采样的行数,而且这个函数返回 ...
分类:
其他好文 时间:
2020-04-29 15:01:03
阅读次数:
60
spark批处理模式: receiver模式:接收数据流,负责数据的存储维护,缺点:数据维护复杂(可靠性,数据积压等),占用计算资源(core,memory被挤占) direct模式:数据源由三方组件完成,spark只负责数据拉取计算,充分利用资源计算 window计算: def windowApi ...
分类:
其他好文 时间:
2020-04-29 14:30:19
阅读次数:
68
问题 执行 spark-submit --master local模式时产生warn并达重试数限制失败,导致spark local不能启动: ... WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port ...
分类:
其他好文 时间:
2020-04-29 12:46:42
阅读次数:
126
Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark Data Sources加载和保存数据的一般方法,然后介绍可用于内置数据 ...
分类:
其他好文 时间:
2020-04-29 10:49:26
阅读次数:
64