前言 上一节我们讲了哈希算法的四个应用,分别是安全加密、数据校验、唯一标识、散列函数。今天再来看看剩下的三个应用:负载均衡、数据分片、分布式存储。 可能大家已经发现了,这三个应用都是与分布式相关的。没错,今天我们来学习一下,哈希算法是如何解决这些分布式问题的。 应用五:负载均衡 负载均衡算法有很多, ...
分类:
编程语言 时间:
2020-07-06 20:00:29
阅读次数:
69
Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...
分类:
其他好文 时间:
2020-07-06 16:11:05
阅读次数:
78
一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么上图中 ...
分类:
其他好文 时间:
2020-07-06 14:25:24
阅读次数:
60
半同步指的是在主节点发生写操作事件后,它会把该操作的事件发送给从节点,当从节点接收到主节点发送过来的事件后,就立刻告诉主节点,从节点已经接收到主节点发送过来的事件,此时主机点并不会等到从节点重放完成,而是接收到从节点接收到主节点发送过去的的事件确认消息后,就返回给客户端;而在mariadb/mys... ...
分类:
数据库 时间:
2020-07-05 15:21:20
阅读次数:
66
欢迎关注 CSDN:程序员小羊 微信公众号:程序员小羊 1、elasticsearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。 面试官:想了解应聘者之前公司接触的 ES 使用场景、规模,有没有做过比较大规模的索引设计、规划、调优。 解答: 如实结合自 ...
分类:
其他好文 时间:
2020-07-04 10:31:55
阅读次数:
66
首先说一下为什么选择MyCat,mysql分表分库的工具还有sharding-jdbc,是jar包的形式集成到项目的,可以相对灵活的配置自定义分片策略(PS:其实大部分业务场景是分片策略越简单越好啊,不会搞那么复杂也不需要太灵活,要不然扩容很麻烦),从架构上考虑感觉不太灵活,依赖与项目,性能负载都是 ...
分类:
其他好文 时间:
2020-07-03 12:17:29
阅读次数:
52
1、两种数据丢失的情况 主备切换的过程,可能会导致数据丢失 (1)异步复制导致的数据丢失 因为master -> slave的复制是异步的,所以可能有部分数据还没复制到slave,master就宕机了,此时这些部分数据就丢失了 (2)脑裂导致的数据丢失 脑裂,也就是说,某个master所在机器突然脱 ...
分类:
其他好文 时间:
2020-07-02 18:17:32
阅读次数:
60
Kafka 的核心架构原理。 ##Kafka 分布式存储架构 那么现在问题来了,如果每天产生几十 TB 的数据,难道都写一台机器的磁盘上吗?这明显是不靠谱的啊! 所以说,这里就得考虑数据的分布式存储了,我们结合 Kafka 的具体情况来说说。 在 Kafka 里面,有一个核心的概念叫做“Topic” ...
分类:
其他好文 时间:
2020-07-01 17:26:55
阅读次数:
67
mongodb集群概念介绍 mongodb支持架构有单机(stand-alone)、主从(master-slave)、副本集(replica set)以及分片(sharding), 而最常用的架构莫过于副本集 + 分片。而分片有三大组件,分别为mongos、configsvr、sharding se ...
分类:
数据库 时间:
2020-07-01 12:36:50
阅读次数:
60
使用零拷贝对文件高效的切片和合并 对文件的切片/合并在应用中是一个很常见的需求,使用 FileChannel的 transferTo / transferFrom 的零拷贝方法(需要操作系统支持),可以高效的完成。 切片 /** * 对文件按照指定大小进行分片,在文件所在目录生成分片后的文件块儿 * ...
分类:
其他好文 时间:
2020-07-01 12:19:31
阅读次数:
70