一:介绍 (1)日志采集系统 (2)是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。 (3)具有基于流数据流的简单灵活的架构。 (4)具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。 二:flume的三个组件:【Source,Channel,Sink】构成A ...
分类:
Web程序 时间:
2018-12-31 13:51:24
阅读次数:
211
一、Flume是什么 Flume是一个数据,日志收集的一个组件,可以用于对程序,nginx等日志的收集,而且非常简单,省时的做完收集的工作。Flume是一个分布式、可靠、和高可用的海量日志采集聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集日志,同时Flume对日志做简单的处理。 Fl ...
分类:
Web程序 时间:
2018-12-30 13:59:48
阅读次数:
189
#!/bin/bash #echo "begin start flume..." path=/sysware/apache-flume-1.8.0-bin echo "flume home is :$path" process=$2 AgentName=$3 JAR="flume" Flumecon... ...
分类:
Web程序 时间:
2018-12-29 16:00:44
阅读次数:
1849
一、什么是大数据 四个特性(4个V) 数据量大(Volume) 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB) 快速化(Velocity) 处理速度快,1秒级决策 多样化(Varity) 数据类型繁多,大部分为非结构化 ...
分类:
其他好文 时间:
2018-12-24 22:35:05
阅读次数:
411
先上一个场景:假如你突然想做饭,但是没有厨具,也没有食材。网上购买厨具比较方便,食材去超市买更放心。 实现分析:在快递员送厨具的期间,我们肯定不会闲着,可以去超市买食材。所以,在主线程里面另起一个子线程去网购厨具。 但是,子线程执行的结果是要返回厨具的,而run方法是没有返回值的。所以,这才是难点, ...
分类:
编程语言 时间:
2018-12-24 02:41:04
阅读次数:
215
最近做了一个POC,目的是系统日志的收集和分析,此前有使用过splunk,虽然用户体验很好,但一是价格昂贵,二是不适合后期开发(splunk已经推出了SDK,后期开发已经变得非常容易)。在收集TB级别的日志量上flume-ng是更好的选择,因为后面的存储是扩展性极佳的HDFS。先简要介绍一下测试环境 ...
分类:
Web程序 时间:
2018-12-22 12:37:32
阅读次数:
246
flume安装: https://blog.csdn.net/u011254180/article/details/80000763 1 运行机制 1、 Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成 2、每一个agent相当于一个数据传递员, ...
分类:
Web程序 时间:
2018-12-18 14:40:18
阅读次数:
257
HDFS命令概述 HDFS命令涉及两类,一类是hadoop命令,一类是hdfs命令,功能也分为两类,第一类是HDFS文件操作命令,第二类是HDFS管理命令。 二者都是shell命令,真正的命令只有hadoop和hdfs,而无所谓的ls/mv/cp/cat/mkdir…dfs/setQuota/fsc ...
分类:
其他好文 时间:
2018-12-17 02:14:59
阅读次数:
179
需求背景:TCX_1710项目产品质量导出功能,客户希望每个总成导出到一个Excel表中 实现分析:客户选择时间段,点击导出按钮,默认导出开始时间当天的数据,每个总成一个Excel,将各个Excel打包压缩,返回压缩包到浏览器页面供客户下载 控制器类: 获取数据的方法: Excel文件帮助类方法: ...