几个概念 Topology(拓扑):Spout、Bolt组成的一个完整的流程结构; Stream Grouping:流分组、数据的分发方式; Spout:直译 水龙头,也就是 消息源 的意思; Bolt:螺栓、处理器。很形象,水从上面的那个“水龙头”流出来,经过第一个螺栓,经过第二个螺栓,经过第三第 ...
分类:
其他好文 时间:
2017-05-20 20:02:17
阅读次数:
258
在编写storm代码来进行实时分析的时候遇到了一些问题,有些的确令人比较头痛,现在稍微做一下整理。数据流向(本地-Spout-Bolt-Hdfs) 1数据的输入输出文件的路径选择 因为在此项目中数据是放在本地磁盘的,所有就有两种放数据的途径,一种是直接通过spout接受本地数据发送到任务中,另一种是 ...
分类:
其他好文 时间:
2017-05-16 23:27:53
阅读次数:
307
Spouts,流的源头 Spout是Storm里面特有的名词,Stream的源头,通常是从外部数据源读取tuples,并emit到topology Spout可以同时emit多个tupic stream,通过OutputFieldsDeclarer中的declareStream,method来定义 ...
分类:
其他好文 时间:
2017-05-16 23:25:12
阅读次数:
305
Storm中有个特殊的Executor叫acker,他们负责跟踪spout发出的每一个Tuple的Tuple树。当acker发现一个Tuple树已经处理完成了,它会告诉框架回调Spout的ack(),否则回调Spout的fail()。Acker的跟踪算法是Storm的主要突破之一,对任意大的一个Tuple树,它只需要恒定的20字节就可以..
分类:
其他好文 时间:
2017-05-14 21:43:15
阅读次数:
1612
上一篇随笔中我介绍了Storm中的几个重要概念:Topology,tuple,Spout和Bolt。这几个核心概念是与Storm运算相关的,由于上节课关于单词计数的实例实在单机环境下通过核心包(storm-core-0.10.2.jar)模拟集群环境的,所以实际上并没有涉及到Storm集群的相关知识 ...
分类:
其他好文 时间:
2017-05-08 01:20:50
阅读次数:
304
先说一下ACK机制: 为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。 这里面涉及到ack/fail的处理,如果一个tuple处理成功是指这个Tuple以及这个Tuple产生的所有Tuple都被成功处理, 会调用spout的ack方法; 如果失败是指这个 ...
分类:
其他好文 时间:
2017-04-29 16:11:16
阅读次数:
254
一、任务执行及通信的单元 Storm中关于任务执行及通信的三个概念:Worker(进程)、Executor(线程)和Task(Spout、Bolt) 1、 一个worker进程执行的是一个Topology的子集(不会出现一个worker进程为多个Topology服务),一个worker进程会启动一个 ...
分类:
其他好文 时间:
2017-04-29 14:23:43
阅读次数:
176
Storm是一个分布式的,可靠的,容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。你可以想象一下 ...
分类:
其他好文 时间:
2017-04-27 21:04:37
阅读次数:
105
【【【storm】】】一、ApacheStorm简介Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt,bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换sp..
分类:
Web程序 时间:
2017-04-22 22:54:17
阅读次数:
239
Nimbus :负责资源分配和任务调度, 把任务相关的元信息写入Zookeeper 对应文件夹。 Supervisor :负责接受nimbus 分配的任务,启动和停止属于自己管理的worker 进程。 Worker :执行详细处理组件逻辑的进程。 Executor :执行spout/bolt 的线程 ...
分类:
其他好文 时间:
2017-04-14 15:45:54
阅读次数:
162