概述 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join,... ...
分类:
Web程序 时间:
2017-09-21 18:02:24
阅读次数:
292
1.环境 jdk : 1.8 scala : 2.11.7 hadoop:2.7 spark : 2.2.0 2. 开发工具 idea 2017.2 3.maven的pom文件 <dependencies> <!-- https://mvnrepository.com/artifact/com.su ...
分类:
其他好文 时间:
2017-09-19 16:46:38
阅读次数:
268
Apache Kafka? is a distributed streaming platform. What exactly does that mean? Apache Kafka?是一个分布式平台。 这究竟是什么意思? We think of a streaming platform as h ...
分类:
其他好文 时间:
2017-09-17 19:00:56
阅读次数:
284
在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重 ...
分类:
其他好文 时间:
2017-09-16 21:54:24
阅读次数:
337
一、前言 首先分享出原文链接http://www.infoq.com/cn/news/2017/09/streaming-Pipeline-kuaishou。自己平时并未用过快手,但是通过“宇宙中心”——五道口 快手巨大的LOGO以及 老家小伙伴的聊天内容来看,快手还是相当火爆的。虽然,直播这个技术 ...
分类:
其他好文 时间:
2017-09-14 23:37:09
阅读次数:
262
基于Receivers的方法 这个方法使用了Receivers来接收数据。Receivers的实现使用到Kafka高层次的消费者API。对于所有的Receivers,接收到的数据将会保存在Spark executors中,然后由Spark Streaming启动的Job来处理这些数据。 然而,在默认 ...
分类:
其他好文 时间:
2017-09-14 16:29:12
阅读次数:
175
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念可了解之 ...
分类:
其他好文 时间:
2017-09-12 16:01:23
阅读次数:
226
设计背景 spark thriftserver目前线上有10个实例,以往通过监控端口存活的方式很不准确,当出故障时进程不退出情况很多,而手动去查看日志再重启处理服务这个过程很低效,故设计利用Spark streaming去实时获取spark thriftserver的log,通过log判断服务是否停 ...
分类:
数据库 时间:
2017-09-12 15:54:06
阅读次数:
210
1. MapReduce 与 HDFS 简介 什么是 Hadoop ? Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布了相关论文(可在 Google Research 的网站上获得:GFS、MapReduce)。Dou ...
分类:
其他好文 时间:
2017-09-05 00:18:37
阅读次数:
167
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. Fil ...
分类:
其他好文 时间:
2017-09-03 21:13:32
阅读次数:
292