1. kafka是一个分布式的消息发布-订阅队列。2. 其中有一些主要的概念: Topic:
就是对放入队列的消息进行分类,分类消息分开储存,比如现在有订单消息和用户投诉消息,则分成订单topic和投诉topic Message:
放入消息队列的一条一条的消息。 Producer: 消息的生...
分类:
其他好文 时间:
2014-05-24 11:45:13
阅读次数:
236
折腾了好几天,终于可以在CenOS下用eclipse写spark程序了当前环境是CentOS6.5,jdk7,scala2.10.4,spark0.9.1前期因为对linux不熟悉的原因花了不少时间查阅命令。折腾了不少时间,终于把jdk8,scala2.11.0环境变量配置好了。在此环境下可以正常编...
分类:
其他好文 时间:
2014-05-23 06:01:28
阅读次数:
312
传统的消息模型有两种模型,队列模型和发布-订阅模式。
1. 队列形式中,一群消费者可能从server那边读消息,而每条消息会流向他们中的一个。
2. 发布-订阅模式中,消息会广播到所有它的消费者们那。
Kafka是使用consumer group这个概念(下面把它翻译为"消费组"),把两者结合了。。
消费者给自己标志了一个消费组名,每条新发布到topic的消息会被传递给订阅它的消费组里的消费者实例,这些消费者实例可以是不同的进程,存在在不同的机器上。
如果所有的消费者在同一个消费组里,那么这相当于是...
分类:
其他好文 时间:
2014-05-21 16:12:44
阅读次数:
279
这个类实现了一些工具性质的方法,正如其名。记下自己觉得有意思的方法:readFileAsString(path: String, charset:
Charset = Charset.defaultCharset()): String /** * Attempt to read a file ...
分类:
其他好文 时间:
2014-05-20 08:01:50
阅读次数:
223
这算是CountDownLatch的一个典型使用场景。kafka.Kafka对象的main方法中与此有关的代码为 // attach shutdown
handler to catch control-c Runtime.getRuntime().addShutdownHook(...
分类:
其他好文 时间:
2014-05-19 16:47:11
阅读次数:
241
本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了。但到了Spark上面,事情似乎不这么简单,按照spark
officical document上的来做,总会出现这样或那样的编译错误,让人懊恼不已。
分类:
其他好文 时间:
2014-05-18 20:25:57
阅读次数:
391
介绍概述预备知识 网络分区和引导分区策略批量处理版本控制和兼容性协议 Protocol
Primitive TypesNotes on reading the request format grammarsCommon Request and
Response Structure RequestsR...
分类:
其他好文 时间:
2014-05-18 20:14:24
阅读次数:
711
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT
通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出)
通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得...
分类:
其他好文 时间:
2014-05-18 15:12:21
阅读次数:
380
1:下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch
dss-6.0.3.patch$wgethttp://dss.macosforge.org/downloads/DarwinStreamingSrvr6.0.3-Source.tar$w...