一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume style Push based ...
分类:
Web程序 时间:
2019-08-15 09:24:53
阅读次数:
106
JobManager 的作用 <! more https://t.zsxq.com/2VRrbuf 博客 1、 "Flink 从0到1学习 —— Apache Flink 介绍" 2、 "Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门" 3、 "F ...
分类:
其他好文 时间:
2019-08-13 22:29:00
阅读次数:
123
MapReduce:分布式计算框架,用来分解大数据量的处理 Map阶段对数据集上的独立元素进行指定的操作,生成键值对形成中间结果,Reduce阶段对中间结果中相同的键的所有值进行规约,以得到最终的结果。 优点: 1)易于编程:简单的实现一些接口 2)可扩展性当计算资源不足时,通过增加机器可以扩展他的 ...
分类:
其他好文 时间:
2019-07-25 00:30:32
阅读次数:
124
1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。 flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。 计数的结果通过JobExecutionResul的getAccumulatorResult方法t获取。 2、示例,在正常业 ...
分类:
其他好文 时间:
2019-07-21 13:33:08
阅读次数:
83
Spark 是大数据领域目前最流行的计算框架,本文用丰富和简单易懂的范例,带你了解 Spark 的基本原理,可以作为新手的 demo 参考。 ...
分类:
其他好文 时间:
2019-07-17 18:26:14
阅读次数:
116
一、为什么叫MapReduce? Map是以一条记录为单位映射 Reduce是分组计算 ...
分类:
其他好文 时间:
2019-07-09 13:59:03
阅读次数:
111
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:
其他好文 时间:
2019-06-15 00:24:40
阅读次数:
176
前面介绍了流计算,在流计算领域,一个热门的计算框架就是-Storm。还是先介绍概念。。。 一、Storm是什么 在流处理过程中,我们除了考虑最重要的数据处理的逻辑,还需要维护消息队列和消费者,考虑消息怎么流、怎么序列化等。而Storm就是这样一个流式计算框架,它为你完成了消息传递等这些通用模块,让你 ...
分类:
其他好文 时间:
2019-06-14 23:33:51
阅读次数:
131
案例一:统计网站访问量(实时统计) 实时流式计算框架:storm 1)spout 数据源,接入数据源 本地文件如下 编写spout程序: 2)splitbolt 业务逻辑处理 切分数据 拿到网址 3)bolt 累加次数求和 4)Driver 使用字段分组 运行结果如下: 总共190条数据。统计完成之 ...
分类:
Web程序 时间:
2019-06-07 12:34:28
阅读次数:
117
前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topic 里面实时读取到监控数据,并将读取到的监控数据做一些 聚合/转换/计算 等操作,然后将计算后的结果 ...
分类:
Web程序 时间:
2019-05-28 09:24:30
阅读次数:
181