来自http://blog.csdn.net/iefreer/article/details/32715153
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。
所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法...
分类:
其他好文 时间:
2015-06-19 10:27:38
阅读次数:
90
twitter在使用storm过程中发现了一些storm的弊端,开发Herons相对storm需要提升的几个特性:1)更好的扩展性, 2)更容易调试 3)更高的性能 4)更好管理–可以和其他系统复用资源...
分类:
其他好文 时间:
2015-06-18 19:45:23
阅读次数:
129
1.概述 在《Kafka实战-实时日志统计流程》一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给大家分享一篇Storm Cluster的搭建部署。以下是今天的分享目录:Storm简述基础软件安装部署效果预览....
分类:
其他好文 时间:
2015-06-18 13:04:35
阅读次数:
125
背景:实现某店商家的实时数据,采用storm+hbase来实时处理流量销量并存储,实时查询展示给用户;经历:
分类:
Web程序 时间:
2015-06-18 02:01:04
阅读次数:
235
1)弹性计算资源 将storm执行在yarn上后。Storm能够与其它计算框架(如mapreduce)共享整个集群的资源。这样当Storm负载骤增时,可动态为它添加计算资源。负载减小时,能够释放资源。2)共享底层存储 执行在yarn上的Storm能够与其它计算框架共享HDFS存储,避免多个集群带.....
分类:
其他好文 时间:
2015-06-17 18:01:36
阅读次数:
146
storm blueprint: P20
从零开始学storm : P40
可靠性:spout发送的消息会被拓扑树上的所有节点ack,否则会一直重发。
完整的可靠性示例请参考storm blueprint的chapter1 v4代码,或者P22。
关键步骤如下:
(一)spout
1、创建一个map,用于记录已经发送的tuple的id与内容,此为待确认的tuple列表。
priva...
分类:
其他好文 时间:
2015-06-17 16:46:10
阅读次数:
135
Storm通过分组来指定数据的流向,主要指定了每个bolt消费哪个流,以及如何消费。
storm内置了7个分组方式,并提供了CustomStreamGrouping来创建自定义的分组方式。
1、随机分组 shuffleGrouping
这种方式会随机分发tuple给bolt的各个task,每个task接到到相同数量的tuple。
2、字段分组 fieldGrouping
按照...
分类:
其他好文 时间:
2015-06-17 15:27:40
阅读次数:
490
(一)storm拓扑的并行度可以从以下4个维度进行设置:1、node(服务器):指一个storm集群中的supervisor服务器数量。2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。3、executor(线程):指某个spout或者bo...
分类:
其他好文 时间:
2015-06-17 13:18:10
阅读次数:
152
(一)一个例子
本示例使用storm运行经典的wordcount程序,拓扑如下:
sentence-spout—>split-bolt—>count-bolt—>report-bolt
分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出
完整代码请见 https://github.com/jinhong-lu/stormdemo
以下是关键代码的分析。
1、创建spout
...
(一)storm拓扑的并行度可以从以下4个维度进行设置:
1、node(服务器):指一个storm集群中的supervisor服务器数量。
2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。
3、executor(线程):指某个spout或者bolt的总线程数量,这些线程会被随机平均的分配到各个worker。
4、task(spo...
分类:
其他好文 时间:
2015-06-17 11:25:53
阅读次数:
157