在前一篇文章中,介绍到了Galaxy的增量计算性质,其state是框架内部管理的,以及与Storm的简单对比。这篇文章将讲述更多Galaxy增量模型的事情,并介绍这套增量模型之上实现的Galaxy SQL和Galaxy Operator,同时会从增量角度对比Spark Streaming。...
分类:
其他好文 时间:
2015-01-16 16:42:07
阅读次数:
652
最近遇到了两起数据库连接数不足的问题, 通常都会预留一些会话增加的情况, 但在一些特殊情况下如连接风暴(logon storm), 如果在监听中没有做rate限流,对数据库来说巨大的冲击可能会导致数据库Hang 或 ora-20 或ora-18 错误。 对于Hang并伴有进程数不足的情况,AWR、A...
分类:
系统相关 时间:
2015-01-16 14:42:04
阅读次数:
344
Kafka的通讯协议
标签:kafka
Kafka的Producer、Broker和Consumer之间采用的是一套自行设计的基于TCP层的协议。Kafka的这套协议完全是为了Kafka自身的业务需求而定制的,而非要实现一套类似于Protocol Buffer的通用协议。本文将介绍这套协议的相关内容。
基本数据类型
定长数据类型:int8,int16,int32和int64,对...
分类:
其他好文 时间:
2015-01-15 20:23:45
阅读次数:
260
Storm集群升级Python库遇到的一个与yum相关的问题...
分类:
编程语言 时间:
2015-01-15 13:00:13
阅读次数:
155
Supervisor中文翻译是监督者,意思简单明了,就是对资源进行监控,其实主要是woker资源。该组件所做的事情概括如下:
1、每隔一段时间发送心跳证明自己还活着
2、下载新的topology
3、释放无效的woker
4、分配新的任务
该组件主要包含:心跳线程、supervisor事件接受线程、处理线程,一旦事件接受到则会进入任务分配环节,主要逻辑...
分类:
Web程序 时间:
2015-01-14 16:52:28
阅读次数:
284
Apache storm 是一个由twitter开源的大数据处理系统,与其他系统不同的是,storm旨在用于分布式实时处理并且与语言无关。笔者所认知的storm使用场景诸 如 实时日志分析、网站用户行为实时分析、实时计算等,目前很多公司也都把storm作为自己的大数据架构的一部分,来实现一些实时业务...
分类:
Web程序 时间:
2015-01-14 14:10:42
阅读次数:
207
如要监控Storm集群和运行在其上的Topology,该如何做呢?
Storm已经为你考虑到了,Storm支持Thrift的C/S架构,在部署Nimbus组件的机器上启动一个Thrift Server进程来提供服务,我们可以通过编写一个Thrift Client来请求Thrift Server,来获取你想得到的集群和Topology的相关数据,来接入监控平台,如Zabbix等,我目前使用的就...
Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计
Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成为consumer.Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker.
下面来看下如何简单的使用:
...
分类:
其他好文 时间:
2015-01-14 11:06:44
阅读次数:
150
典型大数据计算模式与系统
典型大数据计算模式
典型系统
大数据查询分析计算
HBase,Hive,Cassandra,Impala,Shark,Hana等
批处理计算
Hadoop MapReduce,Spark等
流式计算
Scribe,Flume,Storm,S4, Spark S...
分类:
其他好文 时间:
2015-01-13 21:33:30
阅读次数:
382
原文地址:http://storm.apache.org/documentation/Common-patterns.html
此文档有许明明的翻译:http://xumingming.sinaapp.com/189/twitter-storm-storm%E7%9A%84%E4%B8%80%E4%BA%9B%E5%B8%B8%E8%A7%81%E6%A8%A1%E5%BC%8F/
但...
分类:
其他好文 时间:
2015-01-13 17:49:27
阅读次数:
201