1.1 模块创建和数据准备 在Flink-project下新建一个 maven module作为子项目,命名为gmall-network-flow。在这个子模块中,我们同样并没有引入更多的依赖,所以也不需要改动pom文件。 在src/main/目录下,将apache服务器的日志文件apache.lo ...
分类:
其他好文 时间:
2020-12-14 13:45:08
阅读次数:
4
来源: 1 Flink 1.1 Flink参数配置 jobmanger.rpc.address jm的地址。 jobmanager.rpc.port jm的端口号。 jobmanager.heap.mb jm的堆内存大小。不建议配的太大,1-2G足够。 taskmanager.heap.mb tm的 ...
分类:
其他好文 时间:
2020-12-09 12:04:30
阅读次数:
4
Flink的优势和特点: 一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点,主要是因为Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apa ...
分类:
其他好文 时间:
2020-12-03 11:33:38
阅读次数:
5
首先还是修改flink安装目录的conf目录下flink-conf.yaml文件,找到如下的三个配置,把原本的注释放开,然后配置自己的hdfs地址和zookeeper地址。 需要注意的是,我这里的hdfs是之前的ha集群,mycluster是我的hdfs的集群名,至于后边的内容会在hdfs中创建路径 ...
分类:
其他好文 时间:
2020-12-01 12:17:20
阅读次数:
7
之前的转换算子是无法访问事件的时间戳信息和水位线信息的,而这在一些应用场景下,极为重要。例如MapFunction这样子的map转换算子就无法访问时间戳或者当前事件的事件事件。基于此,DataStreamAPI提供了一系列LOW-LEVEL的转换算子调用。可以访问时间戳,watermark以及注册定时事件,还可以输出特定的一些事件,例如超时时间等。processfunction用来构建事件驱动的应
分类:
其他好文 时间:
2020-12-01 11:59:48
阅读次数:
3
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等; 关于Flink SQL Client Flink Table & SQL的API实现了通过SQ ...
分类:
数据库 时间:
2020-11-18 13:07:58
阅读次数:
15
Flink State Time-To-Live (TTL) ...
分类:
其他好文 时间:
2020-11-17 12:54:38
阅读次数:
8
? 往期推荐: Flink基础:入门介绍 Flink基础:DataStream API Flink深入浅出:资源管理 Flink深入浅出:部署模式 Flink深入浅出:内存模型 Flink深入浅出:JDBC Source从理论到实战 Flink深入浅出:Sql Gateway源码分析 Flink深入 ...
分类:
其他好文 时间:
2020-11-17 12:44:02
阅读次数:
10
1. 产品的架构是数据采集到 kafka,由 flink 读取,送入ES 2. 这个过程中,涉及: kafka分区数,flink并行度,ES 分区数和副本 3. kafka 分区数决定了后面 flink 的并行度,最好是 kafka 的分区数和 flink 的并行度一致 4. 写入 ES 时,需要先 ...
分类:
其他好文 时间:
2020-11-16 14:01:57
阅读次数:
18
FLATMAP flatMap算子和map算子很类似,不同之处在于针对每一个输入事件flatMap可以生成0个、1个或者多个输出元素。事实上,flatMap转换算子是filter和map的泛化。所以flatMap可以实现map和filter算子的功能。图5-3展示了flatMap如何根据输入事件的颜 ...
分类:
其他好文 时间:
2020-11-12 13:42:51
阅读次数:
7