采集目录到HDFS 使用flume采集目录需要启动hdfs集群 spooldir source 监控指定目录 如果目录下有新文件产生 就采集走 注意!!! 此组件监控的目录不能有同名的文件产生 一旦有重名文件:报错 罢工 注意!!! 此组件监控的目录不能有同名的文件产生 一旦有重名文件:报错 罢工 ...
分类:
Web程序 时间:
2018-07-07 20:42:41
阅读次数:
171
概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(chann ...
分类:
Web程序 时间:
2018-07-07 20:12:05
阅读次数:
181
基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, joi ...
分类:
其他好文 时间:
2018-06-30 14:50:42
阅读次数:
206
flume:用来搜集日志,将日志传输至kakfa kafka:作为缓存,存储来自flume的日志 es:作为存储媒介,存放日志 logstash:真对日志进行过滤处理 flume部署 获取安装包、解压 修改flumen-env.sh脚本,设置启动参数 编辑配置文件 创建kafka的topic 启动f ...
分类:
Web程序 时间:
2018-06-26 18:01:46
阅读次数:
357
1. Logstash概述 Logstash的官网地址为:https://www.elastic.co/cn/products/logstash,以下是官方对Logstash的描述。 Logstash是与Flume类似,也是一种数据采集工具,区别在于组件和特性两大方面。常用的数据采集工具有Sqoop ...
分类:
其他好文 时间:
2018-06-23 00:07:45
阅读次数:
296
Flume(一)Flume原理解析 阅读目录(Content) 一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Fl ...
分类:
Web程序 时间:
2018-06-22 13:43:24
阅读次数:
251
读文件log传入kafka中 agent.sources = s1 agent.channels = c1 agent.sinks = k1 agent.sources.s1.type=exec agent.sources.s1.command=tail -F /tmp/logs/kafka.log ...
分类:
Web程序 时间:
2018-06-21 17:38:02
阅读次数:
246
flume:是分布式、可靠、可用性好服务,用于收集、聚合、移动大量日志数据。是基于流计算的简单灵活框架,用于在线分析stream:动态计算 flume优点:1.可以和任意集中式存储进程集成2.输入的数据速率大于写入存储目的地的速度,flume会进行缓冲3.flume提供上下文路由(数据流路线)4.f ...
分类:
Web程序 时间:
2018-06-19 18:57:11
阅读次数:
439
在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map——分,一部分是Reduce——合MapReduce全过程的数据都是以键值对的形式存在的如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目
分类:
其他好文 时间:
2018-06-15 22:43:07
阅读次数:
183
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形 ...
分类:
数据库 时间:
2018-06-15 00:02:22
阅读次数:
386