1. HADOOP背景介绍 1.1 什么是HADOOP Hadoop hive hbase flume kafka sqoop spark flink ……. 1.2 HADOOP产生背景 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网 ...
分类:
其他好文 时间:
2018-09-05 11:39:05
阅读次数:
195
String newFile = StringConstant.LINUX_JOB_DIRSUFFIX + emptyFileStr; Path newpath = Paths.get(newFile);//新的空的文件 就是打算写入到jar文件里的 File emptyFile = newpath... ...
分类:
编程语言 时间:
2018-09-05 00:59:26
阅读次数:
673
本篇我们介绍下,Flink在YARN上运行流程: 注意事项: 客户端:这里的客户端就是用户提交Flink应用的节点。 ApplicationMaster和JobManager运行同一个container中;因此ApplicationMaster,生成新的配置文件时,就知道JobManager的信息, ...
分类:
其他好文 时间:
2018-09-04 01:42:48
阅读次数:
252
1. kafka简介 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,具有自己独特的设计。 1.1 Topics 和partition 对每个topic,Kafka 对它的日志进行了分区(partition),如下图所示: 每个分区都由一系列有序的、不可变的消息组成 ...
分类:
其他好文 时间:
2018-08-31 17:18:52
阅读次数:
230
apache 是一个流处理框架,官方提供了docker 镜像,同时也提供了基于docker-compose 运行的说明 docker-compose file version: "2.1" services: jobmanager: image: flink expose: - "6123" por ...
分类:
Web程序 时间:
2018-08-29 13:56:26
阅读次数:
724
https://issues.apache.org/jira/browse/FLINK-10030 https://issues.apache.org/jira/browse/FLINK-10011 https://github.com/apache/flink/pull/6590/commits/ ...
分类:
其他好文 时间:
2018-08-28 17:03:10
阅读次数:
171
Distributed Runtime Environment(分布式运行环境) Tasks and Operator Chains 在分布式执行情况下,Flink将operator subtasks 链接到一起,形成任务(task)。每个任务(subtask)由一个线程执行。将operator s ...
分类:
其他好文 时间:
2018-08-28 00:58:47
阅读次数:
436
https://yq.aliyun.com/articles/457445?spm=a2c4e.11154873.tagmain.112.5a2f788dydzXjE ...
分类:
数据库 时间:
2018-08-25 16:23:55
阅读次数:
474
Window: 在Streaming中,数据是无限且连续的,我们不可能等所有数据都到才进行处理,我们可以来一个就处理一下,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算 ...
org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint-Xms2024m -Xmx2024m -Dlog.file="D:/flink/flink-1.6.0-bin-scala_2.11/flink-1.6.0/ ...
分类:
Web程序 时间:
2018-08-23 02:07:31
阅读次数:
1827