特性如下: 可线性伸缩至超过数百个节点; 实现亚秒级延迟处理; 可与Spark批处理和交互式处理无缝集成; 提供简单的API实现复杂算法; 更多的流方式支持,包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。 原理 Spark在接收到实时输入数据流后,将数据划分成批次(di ...
分类:
Web程序 时间:
2020-06-26 01:31:54
阅读次数:
136
现陆续将Demo代码和技术文章整理在一起 Github实践精选 ,方便大家阅读查看,本文同样收录在此,觉得不错,还请Star 写在前面 进入源码阶段了,写了十几篇的 并发系列 知识铺垫终于要派上用场了。相信很多人已经忘了其中的一些理论知识,别担心,我会在源码环节带入相应的理论知识点帮助大家回忆,做到 ...
分类:
其他好文 时间:
2020-06-26 01:08:35
阅读次数:
77
一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ...
分类:
其他好文 时间:
2020-06-25 21:47:14
阅读次数:
74
Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关 ...
分类:
数据库 时间:
2020-06-25 21:29:31
阅读次数:
581
一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R ...
分类:
其他好文 时间:
2020-06-25 21:27:05
阅读次数:
66
Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的 ...
分类:
其他好文 时间:
2020-06-24 16:28:44
阅读次数:
53
package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} ...
分类:
数据库 时间:
2020-06-24 16:23:50
阅读次数:
132
Java线程池Executor框架可以视为一个生产者消费者模型,但是如何正确保持生产者和消费者平衡,也就是向线程池投递任务的速度和线程池处理任务能达到一个平衡关系,被投递的任务能够及时的被处理,不会因为超过线程池负载出现任务丢失甚至导致程序崩溃。由于Executor框架默认提供了空闲线程回收机制,所 ...
分类:
编程语言 时间:
2020-06-24 00:20:55
阅读次数:
90
一、 编写nginx反向代理配置 worker_processes 1; events { worker_connections 1024; } http { include mime.types; default_type application/octet-stream; sendfile on ...
分类:
其他好文 时间:
2020-06-23 19:09:56
阅读次数:
115
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线架构和实时架构,带领大家构建
分类:
其他好文 时间:
2020-06-23 18:39:30
阅读次数:
58