FlinkStandalone模式部署集群是最简单的一种部署方式,不依赖于其他的组件,另外还支持YARN/Mesos/K8S等模式下的部署Standalone执行架构图:1)client客户端提交任务给Jobmanager2)JobManager负责申请任务运行所需要的资源并管理任务和资源。3)JobManager分发任务给TaskManager执行4)TaskManager定期向JobManag
分类:
其他好文 时间:
2020-11-06 02:26:29
阅读次数:
21
基本概念部分,批处理和流处理的区别批处理在大数据世界有着悠久的历史,比较典型的就是spark。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:(1)有界:批处理数据集代表数据的有限集合(2)持久:数据通常始终存储在某种类型的持久存储位置中(3)大量:批处理操作通常是处理极为海量数据集的唯一方法批处理非常适合需要访问全套记录才能完成的计算工作。例
分类:
其他好文 时间:
2020-11-06 02:26:18
阅读次数:
29
使用pinpoint这类APM监控工具的好处,以及生产环境部署这类工具需要考虑一些因素。
分类:
其他好文 时间:
2020-11-04 18:14:11
阅读次数:
67
前两天试了下 Flink SQL 写 Hive,对 Sink 部分写数据到 HDFS 的部分比较疑惑,特别是基于 checkpoint 的文件提交,所以看了下 StreamingFileSink 的源码(Flink SQL 写 hive 复用了这部分代码) StreamingFileSink 是 1 ...
分类:
其他好文 时间:
2020-11-01 20:49:03
阅读次数:
18
上级:https://www.cnblogs.com/hackerxiaoyon/p/12747387.html 每个函数和算子都可以有状态在flink中。状态的函数存储数据通过独立的元素或事件处理。为了让状态具有容错性,flink需要把状态进行快照。检查点允许flink恢复状态和位置在流中,从而是 ...
分类:
其他好文 时间:
2020-10-29 09:52:49
阅读次数:
16
1.序言 Flink在内部以二进制的格式将数据保存,由于普通的Java对象类型和内部二进制格式不一致,需要一套相互转换机制来进行序列化和反序列化。 2.DataStream类型系统 2.1 物理类型 Flink支持的物理类型如下图所示: 分为基础类型、数组类型、复合类型、辅助类型、泛型和其他类型,如 ...
分类:
其他好文 时间:
2020-10-27 11:41:17
阅读次数:
56
什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中 ...
分类:
其他好文 时间:
2020-10-27 11:01:11
阅读次数:
45
fink slink 后的数据被复写了??? 生产环境总会遇到各种各样的莫名其名的数据,一但考虑不周便是车毁人亡啊。 线上sink 流是es , es 的文档id 是自定义的 id+windowSatarTime 设window size = 10min , watermark 最大延迟时间是 10 ...
分类:
其他好文 时间:
2020-10-22 22:23:47
阅读次数:
26
在上一篇博客当中,我们已经介绍了Flink的容错机制归根结底依赖的是Checkpoint机制,所以本篇博客是该章的核心. 什么是Checkpoint 为了保证state的容错性,Flink需要对state进行checkpoint。 Checkpoint是Flink实现容错机制最核心的功能,它能够根据 ...
分类:
其他好文 时间:
2020-10-06 20:55:32
阅读次数:
31
1.maven依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.co ...
分类:
数据库 时间:
2020-09-24 22:12:38
阅读次数:
88