背景: 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临例如以下几个挑战:怎样收集这些巨大的信息怎样分析它 怎样及时做到如上两点 以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)...
分类:
其他好文 时间:
2014-09-23 14:04:14
阅读次数:
295
Storm是一个分布式的、可靠的、容错的数据流处理系统(流式计算框架,可以和mapreduce的离线计算框架对比理解)。 整个任务被委派给不同的组件,每个组件负责一个简单的特定的处理任务。Storm集群的输入流是一个叫...
分类:
其他好文 时间:
2014-09-23 13:10:17
阅读次数:
348
KafkaOffsetMonitor是不错的kafka监控的web工具,官方提供的版本需要在线下载js和css,其中angulajs的下载不了,在不联网的内部环境下不能正常使用,所以本人将其所有到的js和css单独下载整到当前这个jar包中,下载在内部环境可以直接使用...
分类:
Web程序 时间:
2014-09-21 11:38:20
阅读次数:
265
# consumer offset commit 使用kafka的python api时遇到了offset回滚的问题,因为最初使用了autocommit参数,发现有时会重复取记录,发现autocommit是批量提交,并且有offset回滚的问题,具体原因未发现,解决方法...
分类:
其他好文 时间:
2014-09-21 02:23:20
阅读次数:
439
计算topNwords的topology,用于比如trendingtopicsortrendingimagesonTwitter.实现了滑动窗口计数和TopN排序,比较有意思,具体分析一下代码Topology这是一个稍微复杂些的topology,主要体现在使用不同的grouping方式,fields...
分类:
其他好文 时间:
2014-09-19 21:05:06
阅读次数:
274
nimbus是storm集群的"控制器",是storm集群的重要组成部分。我们可以通用执行bin/storm nimbus >/dev/null 2>&1 &来启动nimbus。bin/storm是一个python脚本,在这个脚本中定义了一个nimbus函数:nimbus函数def nimbus(k...
分类:
其他好文 时间:
2014-09-15 22:33:00
阅读次数:
594
1、当一个worker死掉会发生什么? 当一个worker死掉,那么supervisor会重新启动这个worker。如果它总是启动失败将不能发送心跳到nimbus,那么nimbus将把这个worker分配到另一台机器上。2、当一个节点死掉将会发生什么? 分配给这台机器的任务将会超时,那么nimb.....
分类:
其他好文 时间:
2014-09-15 15:50:49
阅读次数:
173
大数据数据处理最常用的是两类模式:批处理和流计算。在open source领域,批处理最有名的组件自然是大名鼎鼎的Hadoop MapReduce,而流计算则是Storm。 Storm是一个分布式的、容错的实时计算系统,目前是Apache 的一个incubator project (http://storm.incubator.apache.org/)。介绍Storm基本概念的文章已经很多了,本文就不再赘述。在此仅仅速记一下笔者实际安装 Storm的步骤。...
分类:
其他好文 时间:
2014-09-14 23:44:17
阅读次数:
284
目前中央库中 org.apache.kafka 是用jdk1.7编译的, 故跑在1.6的jvm中会报错解决方案:1. 下载kafka源码, 本地sbt进行install, 编译前 java -version确认classpath中的jdk版本是1.62. 编译打包成功后, 进入当前kafka目录的 ...
分类:
编程语言 时间:
2014-09-14 22:06:27
阅读次数:
1889
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3971113.html本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程 在eclipse下创建maven工程,可以参照http://www.cnblogs.com/to....