数据 整理分析(算法 + 数据结构) 信息 1. 基本数据类型(Primitive Data Type) 标量数据类型(Scalar Data Type) 整数、浮点数、布尔、字符 2. 结构化数据类型(Structured Data Type) 虚拟数据类型(Virtual Data Type) ...
分类:
其他好文 时间:
2019-09-11 15:43:48
阅读次数:
121
编程模型 ●编程模型概述 一个流的数据源从逻辑上来说就是一个不断增长的动态表格,随着时间的推移,新数据被持续不断地添加到表格的末尾。 用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询 ...
分类:
其他好文 时间:
2019-09-11 10:16:14
阅读次数:
109
1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql ...
分类:
其他好文 时间:
2019-09-11 10:06:19
阅读次数:
126
Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前,Spark Streaming作为核心API的扩展,针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据,并切分成很多小的bat ...
分类:
其他好文 时间:
2019-09-11 10:00:22
阅读次数:
114
1.1. 计算操作 获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述 ●官网示例代码: caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi ...
分类:
其他好文 时间:
2019-09-11 09:50:46
阅读次数:
90
1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 ...
分类:
其他好文 时间:
2019-09-11 09:27:19
阅读次数:
137
关系的完整性约束 实体完整性: 主键不为空 参照完整性: 或为空, 或者等于另一个关系的主码值 用户定义完整性: 用于设置某个属性的取值范围 SQL即Structured Query Language DDL(Data Definition Language数据定义语言) 用来建立数据库、数据库对象 ...
分类:
数据库 时间:
2019-09-10 23:57:36
阅读次数:
204
结构化查询语言(Structured Query Language)简称SQL 是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统 SQL语言提出 :1974年由Boyce和Chamberlin 主要分为:数据定义、数据操纵和数据控制 优点: 结 ...
分类:
数据库 时间:
2019-09-06 18:42:08
阅读次数:
156
本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程,首先,我们看下读取流数据源kafka的代码: sparkSession.readStream()返回的对象是DataSourceReader DataSo ...
分类:
其他好文 时间:
2019-08-27 23:21:44
阅读次数:
195
1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative Classification)的一种接合,能够用来对“结构预测”(structured predi ...
分类:
其他好文 时间:
2019-07-12 09:22:12
阅读次数:
126