本题其实就是storm的wordcout,需要把一个gz压缩的文件读取,并使用storm计算其pv. 样本 数据: 存储为accesslog.gz 我把它加载到我的虚拟机中/mnt/下。 没有使用trident,刚学习最基本的。 所以把spout的数目设定为1. 把文件路径存储在config 的ma...
分类:
其他好文 时间:
2015-02-07 14:25:20
阅读次数:
258
本次实验的环境为VM station 10 安装三个虚拟机,系统为centOS6.5。IP分别如下图。如下图,三个虚拟机均安装了Java1.7以及配置好了hosts文件。接着是下载zookeeper-3.4.6(这里推荐使用此版本),进入conf目录下,将zoo_sample.cfg复制成zoo.c...
分类:
其他好文 时间:
2015-02-02 21:17:24
阅读次数:
191
本文根据自己的了解,对学习storm所需的一些知识进行汇总,以备之后详细了解。 maven工具Vagrantstormeclipseredisnodejs
分类:
其他好文 时间:
2015-02-01 17:39:44
阅读次数:
148
从Storm看集群管理
简介
Storm是当前最流行的分布式实时计算平台,使用场景是根据Storm定义的接口规范编写一个实时处理流,然后提交到Storm平台处理,Storm平台解析该处理流,使其并行、分布式地在集群中运行,并附带相应的状态监控。本文主要描述Storm的集群管理这块的内容,处理流的相关接口逻辑规范不作涉及。
Storm集群监控管理的目标是管理和监控用户提交的...
分类:
其他好文 时间:
2015-01-31 18:02:37
阅读次数:
666
Storm-Kafka模块之写入kafka-KafkaBolt的使用及实现...
分类:
其他好文 时间:
2015-01-26 12:02:24
阅读次数:
908
首先安装zookeeper集群,然后安装storm集群。 我使用的是centos 32bit的三台虚拟机.
MachineNameipnamenode192.168.99.110datanode01192.168.99.111datanode02192.168.99.112首先配置好ssh,可以无密...
分类:
其他好文 时间:
2015-01-25 19:35:06
阅读次数:
219
这个模式所做的事情概括一下就是把多个不同的任务和操作合并到一个计算单元中,从而使云计算应用提高计算资源利用率,降低管理开销和任务之间连接交互的开销。
PS:我这里对后文中所翻译的“计算单元”做个小小的注释,这里的计算单元可以认为是逻辑的运行容器,可以是基于cgroup的各种container,也可以是像Storm中的worker,Spark中的Executor等等。这个模式除了在自己设计分布式系...
分类:
其他好文 时间:
2015-01-25 12:37:47
阅读次数:
333
TickTuple可以满足每隔一段时间发送tuple,"__system" component会定时往task发送 "__tick" stream的tuple,发送频率由TOPOLOGY_TICK_TUPLE_FREQ_SECS来配置, 可以在default.ymal里面配置,也可以在代码里面通过g...
分类:
其他好文 时间:
2015-01-23 11:08:06
阅读次数:
220
最近在使用storm做一个实时计算的项目,Spout需要从 KAFKA 集群中读取数据,为了提高开发效率,直接使用了Storm提供的KAFKA插件。今天抽空看了一下KafkaSpout的源码,记录下心得体会。 KafkaSpout基于kafka.javaapi.consumer.Simpl...
分类:
Web程序 时间:
2015-01-22 12:47:14
阅读次数:
496
一个topology的启动包括了三个步骤 1)创建TopologyBuilder,设置输入源,输出源 2)获取config 3)提交topology(这里不考虑LocalCluster本地模式) 以storm.starter的ExclamationTopology为例:public static v...
分类:
其他好文 时间:
2015-01-22 12:46:55
阅读次数:
202