hadoop 分布式计算框架。 common // hdfs //存储 mapreduce //MR,编程模型. yarn //资源调度. 集群部署 1.standard alone/local nothing. 2.伪分布式 一台机器. NN //目录 DN //DataNode,block(12 ...
分类:
其他好文 时间:
2019-09-16 23:50:45
阅读次数:
134
一.简介 Tachyon是介于磁盘存储和计算框架之间的一种中间件,用于实现分布式的内存文件读写等功能,实现分布式集群内部共享数据。 应用实例: 二.架构 1.心跳机制 在Tachyon中,心跳用于Master/Worker/Client之间的定期通信以及Master/Worker自身的状态自检。 > ...
分类:
其他好文 时间:
2019-09-15 18:47:37
阅读次数:
79
1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] ...
分类:
其他好文 时间:
2019-09-11 09:35:22
阅读次数:
157
一、Storm 1.1 简介 Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点: + 支持水平横向扩展; + 具有高容错性,通过 ACK 机制每个消息都不丢失; + ...
分类:
其他好文 时间:
2019-09-03 09:38:28
阅读次数:
91
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成。 在 "Streaming 大数据的未来" 一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...
分类:
其他好文 时间:
2019-09-02 14:01:54
阅读次数:
92
Map Reduce是一个计算框架。Map函数发送到所有含有涉及数据的节点上运行,而Reduce之运行在多台主机上用作收集map结果用,reduce数量取决于reduce收集函数分了几个组,只在几个几个节点上运行。 shuffle机制:分组排序 MapReduce执行过程 map进程数量基于切片思想 ...
分类:
其他好文 时间:
2019-08-26 00:15:36
阅读次数:
87
1.什么是Hadoop? Hadoop是一款进行数据处理和分析的软件,包含HDFS(分布式文件存储系统),MapReduce(分布式计算框架),Yarn(分布式资源调度任务分配框架)。 Hadoop来源于谷歌2003-2004年发布的三篇论文,基于这三篇论文doug cutting( 来自 luce ...
分类:
其他好文 时间:
2019-08-18 14:02:04
阅读次数:
112
前言:大牛说由spark入手比较合适 1.spark简介 spark是个计算框架,不存东西。MapReduce是Hadoop里面做计算的,也不存东西,出现比spark早,自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。 spark起源于2009 ...
分类:
其他好文 时间:
2019-08-17 00:35:22
阅读次数:
79
大数据追求相关性,不追求因果性。 一、Spark目的 map reuce:先写入磁盘,再从网络读取磁盘数据,mapreduce只适合处理对速度不敏感的离线批量处理。 spark:在一个物理节点,用内存完成各种各样的计算。(有时也用磁盘) storm:流式,纯粹实时计算框架,吞吐量不高,每条数据过来直 ...
分类:
其他好文 时间:
2019-08-16 18:47:51
阅读次数:
87
1.随着互联网快速发展,数据量的快速膨胀,我们日增3000多亿数据量,因此需要针对PB级存储、几百TB的增量数据处理架构设计 2.系统逻辑划分总图: 暂不便透露 3.系统架构图: 4.大数据计算引擎我们是采用Apache Flink流式计算框架,并对其进行了一些优化,目前在生产环境,已经基本稳定运行 ...
分类:
其他好文 时间:
2019-08-15 12:51:51
阅读次数:
131