1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitt ...
分类:
其他好文 时间:
2019-09-04 10:22:15
阅读次数:
115
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成。 在 "Streaming 大数据的未来" 一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...
分类:
其他好文 时间:
2019-09-02 14:01:54
阅读次数:
92
Scala面试题: https://www.cnblogs.com/Gxiaobai/p/10460336.html spark-Streaming面试题: http://app.myzaker.com/news/article.php?pk=59a6517b1bc8e03276000029 spa ...
分类:
其他好文 时间:
2019-08-29 20:23:10
阅读次数:
73
本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程,首先,我们看下读取流数据源kafka的代码: sparkSession.readStream()返回的对象是DataSourceReader DataSo ...
分类:
其他好文 时间:
2019-08-27 23:21:44
阅读次数:
195
Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Sp ...
分类:
其他好文 时间:
2019-08-26 13:02:03
阅读次数:
114
一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看,通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写 ...
分类:
其他好文 时间:
2019-08-25 13:46:52
阅读次数:
943
◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义 ...
分类:
其他好文 时间:
2019-08-22 13:13:31
阅读次数:
95
SparkStreaming简单例子 ◆ 构建第一个Streaming程序: (wordCount) ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作: 1.引入Spark Streaming的jar 2.scala流计算import ...
一.output操作概览 二.output操作 DStream中的所有计算,都是由output操作触发的,比如print()。如果没有任何output操作,那么,压根儿就不会执行定义的计算逻辑。 此外,即使你使用了foreachRDD output操作,也必须在里面对RDD执行action操作,才能 ...
分类:
其他好文 时间:
2019-08-20 22:09:44
阅读次数:
101
一、 容错机制1、背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:1、RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val l... ...
分类:
其他好文 时间:
2019-08-20 14:08:26
阅读次数:
103