kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/ngin ...
分类:
其他好文 时间:
2020-04-12 16:38:30
阅读次数:
65
[toc] 一、kafka简介 Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、H ...
分类:
系统相关 时间:
2020-04-12 14:23:35
阅读次数:
109
[toc] 一、Kafka、RabbitMQ、Redis消息中间件对比 在分布式系统中、消息中间件常用于系统间的数据交换, 按照实际业务需求场景以及运维成本,可以选择适合自己的产品. 二、相关概念介绍 Kafka 1.基于Pull的模式来处理消息消费 2.追求高吞吐量 3.一开始的目的就是日志收集和 ...
分类:
其他好文 时间:
2020-04-12 14:15:04
阅读次数:
78
1:在flume/job下配置flume-file-logger.conf配置文件 2:在flume根目录下开启监听(注意,如果当天没有使用hive产生过日志文件的话先操作hive产生当天日志文件) 3:操作hive产生日志文件,查看控制台 ...
分类:
其他好文 时间:
2020-04-12 12:53:11
阅读次数:
150
之前参加 rocketmq 的 meetup,台上有人讲,kafka 不支持同步刷盘,当时没太在意,今天抽空看了下代码: kafka 提供了配置参数来支持同步刷盘,和 rocktmq 的做法不同(4.7 的 rmq 在 sync_disk 模式,统一在 GroupCommitService 中刷盘, ...
分类:
其他好文 时间:
2020-04-12 12:49:37
阅读次数:
211
记录下和kafka相关的语义、不重复消息、不丢失数据、分区有序的内容,文中很多理解参考文末博文、书籍还有某前辈。 kafka语义 kafka中有三种语义,它对理解下面的不重复消费有帮助。 最多一次(at most once):消息最多被处理一次,可能有消息丢失的风险。 至少一次(at least o ...
分类:
其他好文 时间:
2020-04-10 22:53:46
阅读次数:
144
maxwell通过实时收集mysql的binlog变化,可以作为数据同步工具。但有时,应用部署在异地环境,mysql数据库的变化通过maxwell无法直接发送到数据中心进行解析和数据同步,本次使用ngix方式作为代理服务器,收集maxwell发送的json数据后,发送到后端的kafka集群。架构如下:1,多个应用平台分布在不同地域内,远端mysql数据库,可以访问互联网。2,在本地数据中心,使用n
分类:
其他好文 时间:
2020-04-10 10:39:10
阅读次数:
93
1.通过自建kafka的生产者来产生数据 /bin/kafka-console-producter.sh --broker-list 192.168.58.177:9092 --topic my_topic 数据 {"user_id": "543462", "item_id":"1715", "ca ...
分类:
数据库 时间:
2020-04-09 19:09:25
阅读次数:
458
1。hadoop生态系统 2.Hadoop分布式文件系统 2.1 HDFS的设计 2.2 HDFS的概念 数据块 namenode和datanode HDFS的高可用性 2.3命令行接口 2.4hadoop文件系统 2.5通过Flume和sqoop导入数据 ...
分类:
其他好文 时间:
2020-04-09 15:30:24
阅读次数:
92
Zookeeper 我想大家都不陌生,在很多场合都听到它的名字。它是 Apache 的一个顶级项目,为分布式应用提供一致性高性能协调服务。可以用来做:配置维护、域名服务、分布式锁等。有很多开源组件,尤其是中间件领域,使用 Zookeeper 作为配置中心或者注册中心。它是 Hadoop 和 HBase 的重要组件,是 Kafka 的管理和协调服务,是 Dubbo 等服务框架的注册中心等。
分类:
其他好文 时间:
2020-04-09 11:05:58
阅读次数:
97