在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils.createDirectStream,前者会自动把offset更新到zk中,默认会丢数据,效率低, ...
分类:
其他好文 时间:
2020-01-31 01:00:37
阅读次数:
82
一、启动kafka 启动kafka之前一定要启动zookeeper,因为要使用kafka必须要使用zookeeper。 windows环境下启动,直接使用kafka自带的zookeeper: E:\kafka_2.12-2.4.0\bin\windows zookeeper-server-start ...
分类:
编程语言 时间:
2020-01-30 20:58:21
阅读次数:
86
zookeeper是作为一个数据管道存储kafka消息队列,上一篇已经解决怎样部署一个zookeeper集群,基于zookeeper集群基础上,本篇介绍怎样部署kafka集群。 mv kafka_2.13-2.4.0.tgz /usr/local tar -zxvf kafka_2.11-2.4.0 ...
分类:
其他好文 时间:
2020-01-30 11:20:41
阅读次数:
140
前前后后各种问题不断终于实现集群部署,特做如下记录,因为zookeeper 和 kafka 都依赖于java 环境,因此需要装jdk。 通过ftp 上传 apache-zookeeper-3.5.6-bin.tar.gz jdk-8u241-linux-x64.tar.gz kafka_2.13-2 ...
分类:
其他好文 时间:
2020-01-29 20:01:25
阅读次数:
90
ETCD 日志收集项目 为什么要自己写不用ELK? ELK: 部署的时候麻烦每一个filebeat都需要配置一个配置文件 使用etcd来管理被收集的日志项。 项目的架构 上节课项目进度 1. kafka:消息队列 2. tailf:从文件里读日志 3. go ini:解析配置文件 今日内容 etcd ...
分类:
其他好文 时间:
2020-01-29 10:58:36
阅读次数:
193
https://blog.csdn.net/vegetable_bird_001/article/details/51858915 主要优化原理和思路 kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点: 利用了磁盘连续读写性能远远高于随机读写的特点; 并发,将一个t ...
分类:
其他好文 时间:
2020-01-28 23:05:24
阅读次数:
84
一、kafka的基础架构 kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 kafka的具体架构如图: 学习kafka的架构前,我们需要了解图中的每个角色: (1)consumer group 消费者组:这是kafka消息队列特有的角色,它是一堆消费组组合成的。消 ...
分类:
其他好文 时间:
2020-01-28 20:47:17
阅读次数:
139
技术选型: 网关:Nginx、Kong、Zuul 缓存:Redis、MemCached、OsCache、EhCache 搜索:ElasticSearch、Solr 熔断:Hystrix、resilience4j 负载均衡:DNS、F5、LVS、Nginx、OpenResty、HAproxy 注册中心 ...
分类:
其他好文 时间:
2020-01-28 00:04:36
阅读次数:
122
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
LogAgen的工作流程: 一.读日志 --tailf 第三方库 新建tail_test/main.go 执行下面的命令: 二. 往kafka写日志--sarama window安装方法参考; https://docs.qq.com/doc/DTmdldEJJVGtTRkFi Ubuntu18.04 ...
分类:
其他好文 时间:
2020-01-27 09:21:43
阅读次数:
84