一、 容错机制1、背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:1、RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val l... ...
分类:
其他好文 时间:
2019-08-20 14:08:26
阅读次数:
103
HDFS 概念 1、概念 1.1、 HDFS - Hadoop File distributed filesystem, HDFS以流式数据访问模式来存储超大文件。 1.2、 HDFS 以块的方式存储数据。 HDFS 集群有两类节点的模式运行,一类是namenode 用来管理节点,一类是工作节点da ...
分类:
其他好文 时间:
2019-08-17 18:13:44
阅读次数:
83
RDD 介绍 RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。 RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指 ...
分类:
编程语言 时间:
2019-08-16 23:08:05
阅读次数:
148
1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block ...
分类:
其他好文 时间:
2019-08-15 06:04:26
阅读次数:
126
DRBD简介 官方文档 DRBD的全称为:Distributed Replicated Block Device(DRBD)分布式块设备复制,DRBD是由内核模块和相关脚本构成,用以构建高可用的集群。其实现方式是通过网络来镜像整个设备。可以把它看作是一种网络RAID。它允许用户在远程机器上建立一个本 ...
分类:
系统相关 时间:
2019-08-14 18:42:03
阅读次数:
134
https://segmentfault.com/a/1190000016351095 http://www.dengshenyu.com/java/%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F/2017/10/23/zookeeper distribu ...
分类:
其他好文 时间:
2019-08-14 16:54:58
阅读次数:
55
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三 ...
分类:
其他好文 时间:
2019-08-13 00:53:23
阅读次数:
203
1 Design document 1.1 System overview We implemented a Book Finder System using a distributed hash table (DHT) based on the Chord protocol. Using this ...
分类:
其他好文 时间:
2019-08-10 17:25:49
阅读次数:
76
1 Design document 1.1 System overview We implemented a distributed file system using a quorum based protocol. The basic idea of this protocol is that ...
分类:
其他好文 时间:
2019-08-10 17:25:06
阅读次数:
70
在程序中,我们经常需要知道事件序列,在单体应用中,事件序列是较为简单的,最简单的办法就是用时间戳,但在分布式系统中,事件序列是很困难的, "Leslie Lamport" 大神在论文 "Time, Clocks, and the Ordering of Events in a Distributed ...
分类:
其他好文 时间:
2019-08-06 10:55:08
阅读次数:
126