最近项目组有需求点击流日志需要自己收集,学习了一下flume并且安装成功了。相关信息记录一下。...
分类:
Web程序 时间:
2014-10-15 20:14:11
阅读次数:
227
解决办法: 在每个新建的类的第一行加入以下内容即可/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE fi.....
分类:
Web程序 时间:
2014-10-15 13:06:10
阅读次数:
519
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。Spark S...
分类:
Web程序 时间:
2014-10-13 22:30:37
阅读次数:
500
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:
通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
支持通过kafka服务器和消费机集群来分区消息。
支持H...
分类:
其他好文 时间:
2014-10-13 18:48:06
阅读次数:
165
转:http://blog.chinaunix.net/uid-25135004-id-4172954.html测试kafka producer发送消息 和consumer 接受消息报错 ,kafka版本kafka_2.9.2-0.8.1[root@master ~]# /export/kafka/...
分类:
其他好文 时间:
2014-10-11 18:40:56
阅读次数:
403
Set a multi node Apache ZooKeeper clusterOn every node of the cluster add the following lines to the filekafka/config/zookeeper.propertiesserver.1=zNo...
分类:
Web程序 时间:
2014-10-11 13:20:15
阅读次数:
253
在Flume中使用Event对象来作为传递数据的格式,在flume-ng-core子项目中的org.apache.flume.serialization包下,有一个名为LineDeserializer的类,这个类负责把数据按行来读取,每一行封装成一个Event(实现方式:按字节读取,当遇到"\n.....
分类:
Web程序 时间:
2014-10-11 12:26:35
阅读次数:
416
“Ad-hoc analysis over Cassandra data with Facebook Presto”一文,对Cassandra+Presto
结合实现大数据即席分析进行了介绍。Presto是为满足交互式即席查询需求而优化的分布式SQL查询引擎。它支持标准ANSI SQL,包括复杂查询,聚合,连接和窗口函数。
Cassandra以前缺少交互式即席查询功能,甚至在CQL中不支持聚合函数。因为这个原因,Cassandra在作为数据库使用时经常被混淆。分析Cassandra中的数据有下边两个框架:
...
分类:
Web程序 时间:
2014-10-10 20:13:04
阅读次数:
666
一、概述
1、现在有三台机器,分别是:Hadoop1,Hadoop2,Hadoop3,以Hadoop1为日志汇总
2、Hadoop1汇总的同时往多个目标进行输出
3、Flume一个数据源对应多个channel,多个sink,是在consolidation-accepter.conf文件里配置的
二、部署Flume来采集日志和汇总日志
1、在Hadoop1上运行fl...
分类:
Web程序 时间:
2014-10-10 17:10:34
阅读次数:
568
软件提供的功能:1、rsyslog是RHEL或centos系统6.x版本的日志服务,代替以前系统的syslog服务。在这个架构中rsyslog服务主要是收集日志的功能,把日志归类,写入数据库。2、mysql是简单的数据库,在这个架构中主要任务是存放收集过来的日志信息,以便提供给loganalyzer软件来显..
分类:
数据库 时间:
2014-10-10 17:00:24
阅读次数:
323