搜索关键字：storm topology，搜索到1867个结果！码迷,mamicode.com！

两款高性能并行计算引擎Storm和Spark比较

来自http://blog.csdn.net/iefreer/article/details/32715153 Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法...

分类：其他好文时间：2015-06-19 10:27:38 阅读次数：90

Heron(一)—-storm的一些短板

twitter在使用storm过程中发现了一些storm的弊端，开发Herons相对storm需要提升的几个特性：1）更好的扩展性， 2）更容易调试 3）更高的性能 4）更好管理–可以和其他系统复用资源...

分类：其他好文时间：2015-06-18 19:45:23 阅读次数：129

Kafka实战－Storm Cluster

1.概述在《Kafka实战－实时日志统计流程》一文中，谈到了Storm的相关问题，在完成实时日志统计时，我们需要用到Storm去消费Kafka Cluster中的数据，所以，这里我单独给大家分享一篇Storm Cluster的搭建部署。以下是今天的分享目录：Storm简述基础软件安装部署效果预览....

分类：其他好文时间：2015-06-18 13:04:35 阅读次数：125

Apache Phoenix开发实践

背景：实现某店商家的实时数据，采用storm+hbase来实时处理流量销量并存储，实时查询展示给用户；经历：

分类：Web程序时间：2015-06-18 02:01:04 阅读次数：235

Storm On YARN带来的好处

1）弹性计算资源将storm执行在yarn上后。Storm能够与其它计算框架（如mapreduce)共享整个集群的资源。这样当Storm负载骤增时，可动态为它添加计算资源。负载减小时，能够释放资源。2）共享底层存储执行在yarn上的Storm能够与其它计算框架共享HDFS存储，避免多个集群带.....

分类：其他好文时间：2015-06-17 18:01:36 阅读次数：146

storm之10：可靠性

storm blueprint: P20 从零开始学storm : P40 可靠性：spout发送的消息会被拓扑树上的所有节点ack，否则会一直重发。完整的可靠性示例请参考storm blueprint的chapter1 v4代码，或者P22。关键步骤如下：（一）spout 1、创建一个map，用于记录已经发送的tuple的id与内容，此为待确认的tuple列表。 priva...

分类：其他好文时间：2015-06-17 16:46:10 阅读次数：135

storm之9：分组

Storm通过分组来指定数据的流向，主要指定了每个bolt消费哪个流，以及如何消费。 storm内置了7个分组方式，并提供了CustomStreamGrouping来创建自定义的分组方式。 1、随机分组 shuffleGrouping 这种方式会随机分发tuple给bolt的各个task，每个task接到到相同数量的tuple。 2、字段分组 fieldGrouping 按照...

分类：其他好文时间：2015-06-17 15:27:40 阅读次数：490

storm之8：并行度

（一）storm拓扑的并行度可以从以下4个维度进行设置：1、node（服务器）：指一个storm集群中的supervisor服务器数量。2、worker（jvm进程）：指整个拓扑中worker进程的总数量，这些数量会随机的平均分配到各个node。3、executor（线程）：指某个spout或者bo...

分类：其他好文时间：2015-06-17 13:18:10 阅读次数：152

storm之6：API

（一）一个例子本示例使用storm运行经典的wordcount程序，拓扑如下： sentence-spout—>split-bolt—>count-bolt—>report-bolt 分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出完整代码请见 https://github.com/jinhong-lu/stormdemo 以下是关键代码的分析。 1、创建spout ...

分类：Windows程序时间：2015-06-17 11:27:15 阅读次数：186

storm之8：并行度

（一）storm拓扑的并行度可以从以下4个维度进行设置： 1、node（服务器）：指一个storm集群中的supervisor服务器数量。 2、worker（jvm进程）：指整个拓扑中worker进程的总数量，这些数量会随机的平均分配到各个node。 3、executor（线程）：指某个spout或者bolt的总线程数量，这些线程会被随机平均的分配到各个worker。 4、task（spo...

分类：其他好文时间：2015-06-17 11:25:53 阅读次数：157

共1867条上一页 1 ... 139 140 141 142 143 ... 187 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)