背景:实现某店商家的实时数据,采用storm+hbase来实时处理流量销量并存储,实时查询展示给用户;经历:
分类:
Web程序 时间:
2015-06-18 02:01:04
阅读次数:
235
想自己动手写一个CNN很久了,论文和代码之间的差距有一个银河系那么大。在实现两层的CNN之前,首先实现了UFLDL中与CNN有关的作业。然后参考它的代码搭建了一个一层的CNN。最后实现了一个两层的CNN,码代码花了一天,调试花了5天,我也是醉了。这里记录一下通过代码对CNN加深的理解。首先,data...
分类:
其他好文 时间:
2015-06-17 23:03:59
阅读次数:
1448
1)弹性计算资源 将storm执行在yarn上后。Storm能够与其它计算框架(如mapreduce)共享整个集群的资源。这样当Storm负载骤增时,可动态为它添加计算资源。负载减小时,能够释放资源。2)共享底层存储 执行在yarn上的Storm能够与其它计算框架共享HDFS存储,避免多个集群带.....
分类:
其他好文 时间:
2015-06-17 18:01:36
阅读次数:
146
storm blueprint: P20
从零开始学storm : P40
可靠性:spout发送的消息会被拓扑树上的所有节点ack,否则会一直重发。
完整的可靠性示例请参考storm blueprint的chapter1 v4代码,或者P22。
关键步骤如下:
(一)spout
1、创建一个map,用于记录已经发送的tuple的id与内容,此为待确认的tuple列表。
priva...
分类:
其他好文 时间:
2015-06-17 16:46:10
阅读次数:
135
Storm通过分组来指定数据的流向,主要指定了每个bolt消费哪个流,以及如何消费。
storm内置了7个分组方式,并提供了CustomStreamGrouping来创建自定义的分组方式。
1、随机分组 shuffleGrouping
这种方式会随机分发tuple给bolt的各个task,每个task接到到相同数量的tuple。
2、字段分组 fieldGrouping
按照...
分类:
其他好文 时间:
2015-06-17 15:27:40
阅读次数:
490
本文介绍了Python的机器学习库scikit-learn模块,包括如何安装scikit-learn,以及如何利用scikit-learn来进行数据挖掘和数据分析。通过几个简单的实例,展示了scikit-learn的用法。
分类:
编程语言 时间:
2015-06-17 14:54:09
阅读次数:
182
(一)storm拓扑的并行度可以从以下4个维度进行设置:1、node(服务器):指一个storm集群中的supervisor服务器数量。2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。3、executor(线程):指某个spout或者bo...
分类:
其他好文 时间:
2015-06-17 13:18:10
阅读次数:
152
(一)一个例子
本示例使用storm运行经典的wordcount程序,拓扑如下:
sentence-spout—>split-bolt—>count-bolt—>report-bolt
分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出
完整代码请见 https://github.com/jinhong-lu/stormdemo
以下是关键代码的分析。
1、创建spout
...
(一)storm拓扑的并行度可以从以下4个维度进行设置:
1、node(服务器):指一个storm集群中的supervisor服务器数量。
2、worker(jvm进程):指整个拓扑中worker进程的总数量,这些数量会随机的平均分配到各个node。
3、executor(线程):指某个spout或者bolt的总线程数量,这些线程会被随机平均的分配到各个worker。
4、task(spo...
分类:
其他好文 时间:
2015-06-17 11:25:53
阅读次数:
157
论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks文章: http://arxiv.org/abs/1506.01497
源码:坐等。。。。目录:论文笔记 Faster R-CNNTowards Real-Time Object Detection with Region Propo...
分类:
Web程序 时间:
2015-06-17 09:48:32
阅读次数:
13336