搜索关键字：streaming，搜索到1219个结果！码迷,mamicode.com！

1. Spark Streaming概述

1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitt ...

分类：其他好文时间：2019-09-04 10:22:15 阅读次数：115

可以穿梭时空的实时计算框架——Flink对时间的处理

Flink对于流处理架构的意义十分重要，Kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠Flink来完成。在 "Streaming 大数据的未来" 一文中我们知道，对于流式处理最重要的两件事，正确性，时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...

分类：其他好文时间：2019-09-02 14:01:54 阅读次数：92

面试链接

Scala面试题： https://www.cnblogs.com/Gxiaobai/p/10460336.html spark-Streaming面试题： http://app.myzaker.com/news/article.php?pk=59a6517b1bc8e03276000029 spa ...

分类：其他好文时间：2019-08-29 20:23:10 阅读次数：73

Spark2.x（六十）：在Structured Streaming流处理中是如何查找kafka的DataSourceProvider?

本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程，首先，我们看下读取流数据源kafka的代码： sparkSession.readStream()返回的对象是DataSourceReader DataSo ...

分类：其他好文时间：2019-08-27 23:21:44 阅读次数：195

Kafka集成SparkStreaming

Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API，因此有两个独立的相应Spark Streaming包可用。请选择正确的包，请注意，0.8集成与后来的0.9和0.10代理兼容，但0.10集成与早期的代理不兼容。注意：从Sp ...

分类：其他好文时间：2019-08-26 13:02:03 阅读次数：114

大数据面试总结（一）

一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看，通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写 ...

分类：其他好文时间：2019-08-25 13:46:52 阅读次数：943

StructuredStreaming编程模型

◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义 ...

分类：其他好文时间：2019-08-22 13:13:31 阅读次数：95

SparkStreaming简单例子（oldAPI）

SparkStreaming简单例子 ◆ 构建第一个Streaming程序：　（wordCount） ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作： 1.引入Spark Streaming的jar 2.scala流计算import ...

分类：Windows程序时间：2019-08-22 00:58:23 阅读次数：109

Spark Streaming DStream的output操作以及foreachRDD详解

一.output操作概览二.output操作 DStream中的所有计算，都是由output操作触发的，比如print()。如果没有任何output操作，那么，压根儿就不会执行定义的计算逻辑。此外，即使你使用了foreachRDD output操作，也必须在里面对RDD执行action操作，才能 ...

分类：其他好文时间：2019-08-20 22:09:44 阅读次数：101

62、Spark Streaming：容错机制以及事务语义

一、容错机制1、背景要理解Spark Streaming提供的容错机制，先回忆一下Spark RDD的基础容错语义：1、RDD，Ressilient Distributed Dataset，是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系，(val l... ...

分类：其他好文时间：2019-08-20 14:08:26 阅读次数：103

共1219条上一页 1 ... 14 15 16 17 18 ... 122 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)