码迷,mamicode.com
首页 >  
搜索关键字:storm topology    ( 1867个结果
两款高性能并行计算引擎Storm和Spark比较
来自http://blog.csdn.net/iefreer/article/details/32715153 Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。 所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法...
分类:其他好文   时间:2015-06-19 10:27:38    阅读次数:90
Heron(一)—-storm的一些短板
twitter在使用storm过程中发现了一些storm的弊端,开发Herons相对storm需要提升的几个特性:1)更好的扩展性, 2)更容易调试 3)更高的性能  4)更好管理–可以和其他系统复用资源...
分类:其他好文   时间:2015-06-18 19:45:23    阅读次数:129
Kafka实战-Storm Cluster
1.概述 在《Kafka实战-实时日志统计流程》一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给大家分享一篇Storm Cluster的搭建部署。以下是今天的分享目录:Storm简述基础软件安装部署效果预览....
分类:其他好文   时间:2015-06-18 13:04:35    阅读次数:125
Apache Phoenix开发实践
背景:实现某店商家的实时数据,采用storm+hbase来实时处理流量销量并存储,实时查询展示给用户;经历:
分类:Web程序   时间:2015-06-18 02:01:04    阅读次数:235
Storm On YARN带来的好处
1)弹性计算资源 将storm执行在yarn上后。Storm能够与其它计算框架(如mapreduce)共享整个集群的资源。这样当Storm负载骤增时,可动态为它添加计算资源。负载减小时,能够释放资源。2)共享底层存储 执行在yarn上的Storm能够与其它计算框架共享HDFS存储,避免多个集群带.....
分类:其他好文   时间:2015-06-17 18:01:36    阅读次数:146
storm之10:可靠性
storm blueprint: P20 从零开始学storm  : P40 可靠性:spout发送的消息会被拓扑树上的所有节点ack,否则会一直重发。 完整的可靠性示例请参考storm blueprint的chapter1 v4代码,或者P22。 关键步骤如下: (一)spout 1、创建一个map,用于记录已经发送的tuple的id与内容,此为待确认的tuple列表。 priva...
分类:其他好文   时间:2015-06-17 16:46:10    阅读次数:135
storm之9:分组
Storm通过分组来指定数据的流向,主要指定了每个bolt消费哪个流,以及如何消费。 storm内置了7个分组方式,并提供了CustomStreamGrouping来创建自定义的分组方式。 1、随机分组 shuffleGrouping 这种方式会随机分发tuple给bolt的各个task,每个task接到到相同数量的tuple。 2、字段分组 fieldGrouping 按照...
分类:其他好文   时间:2015-06-17 15:27:40    阅读次数:490
storm之8:并行度
(一)storm拓扑的并行度可以从以下4个维度进行设置:1、node(服务器):指一个storm集群中的supervisor服务器数量。2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。3、executor(线程):指某个spout或者bo...
分类:其他好文   时间:2015-06-17 13:18:10    阅读次数:152
storm之6:API
(一)一个例子 本示例使用storm运行经典的wordcount程序,拓扑如下: sentence-spout—>split-bolt—>count-bolt—>report-bolt 分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出 完整代码请见 https://github.com/jinhong-lu/stormdemo 以下是关键代码的分析。 1、创建spout ...
分类:Windows程序   时间:2015-06-17 11:27:15    阅读次数:186
storm之8:并行度
(一)storm拓扑的并行度可以从以下4个维度进行设置: 1、node(服务器):指一个storm集群中的supervisor服务器数量。 2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。 3、executor(线程):指某个spout或者bolt的总线程数量,这些线程会被随机平均的分配到各个worker。 4、task(spo...
分类:其他好文   时间:2015-06-17 11:25:53    阅读次数:157
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!