第一层Flume 从 source-> KAFKA .[kafka作为channel] 1.安装的 Flume是1.7的版本 安装略 日志文件分为两种一种是启动日志,一种是事件日志. 通过selector选择器把这两个日志分开,并且过滤一些空数据. 我们先写选择器吧. 1. 建立一个工程. mave ...
分类:
Web程序 时间:
2020-06-28 00:08:11
阅读次数:
135
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:
Web程序 时间:
2020-06-27 00:19:37
阅读次数:
77
需求:采集8类日志数据,并且进入es展示: 方案制定:目前数据采集通用flume+kafka模式,所以采用原有模式,一类服务进入一个topic,然后通过logstash进行数据清洗,最后进入es进行展示。 flume采用tadir 读取数据源,memory 进行缓存,kafka进行sink a1.s ...
分类:
Web程序 时间:
2020-06-26 22:29:32
阅读次数:
81
特性如下: 可线性伸缩至超过数百个节点; 实现亚秒级延迟处理; 可与Spark批处理和交互式处理无缝集成; 提供简单的API实现复杂算法; 更多的流方式支持,包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。 原理 Spark在接收到实时输入数据流后,将数据划分成批次(di ...
分类:
Web程序 时间:
2020-06-26 01:31:54
阅读次数:
136
先来看一下,让人迷惑的异常截图,以便再次加深迷惑的感受。 感受之后,就要找原因了,这样迷惑下去不是办法。 1. 为什么会出现这个错误? 很明显,错误已经明确的提示到没有找到这类。也就是说,这个类不存在。 开什么玩笑?一直用的好好的怎么就突然不存在了?这不科学啊! 2. 这个类为什么不存在? 问题已经 ...
分类:
Web程序 时间:
2020-06-25 13:56:12
阅读次数:
76
Nifi生产环境使用 1、服务器日志目录内的 log 文件中,我们使用 Apache Flume 这个工具将原始数据抽取出来 kafka sink , 2、Nifi接入kafka数据。 首先做验证,然后过滤格式错误记录,然后路由不同的日志类型. nifi能做到这些的关键在于它的 flowfile 这 ...
分类:
其他好文 时间:
2020-06-23 15:17:07
阅读次数:
98
jdk版本:1.8; jdk安装路径不准有空格 JDK安装: jdk版本:1.8; jdk安装路径不准有空格 WebLogic安装: 解压安装包 解压JAR 找到fmw_12.2.1.3.0_wls\Disk1\install路径,选中ng.cmd右键以管理员身份运行 点击下一步 选中‘跳过自动更新 ...
分类:
Web程序 时间:
2020-06-23 13:31:17
阅读次数:
68
采集数据到HDFS 安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar -xvzf apache-flume-1.6.0-bin.tar.gz -C ap ...
分类:
其他好文 时间:
2020-06-23 13:03:55
阅读次数:
59
数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83