既然包名是api,说明里面肯定都是一些常用的Kafka API了。一、ApiUtils.scala顾名思义,就是一些常见的api辅助类,定义的方法包括:1. readShortString: 从一个ByteBuffer中读取字符串长度和字符串。这个ByteBuffer的格式应该是:2个字节的字符串长...
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计...
分类:
其他好文 时间:
2015-05-06 12:37:56
阅读次数:
181
Spark1.3中新增DirectStream处理Kafka的消息。使用方法如下:KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)ssc:S...
分类:
其他好文 时间:
2015-05-05 18:20:40
阅读次数:
200
介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?首先让我们看几个基本的消息系统术语:Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并...
分类:
其他好文 时间:
2015-05-05 16:18:58
阅读次数:
158
Kafka 分布式消息队列 类似产品有JBoss、MQ一、由Linkedln 开源,使用scala开发,有如下几个特点:(1)高吞吐(2)分布式(3)支持多语言客户端 (C++、Java)二、组成:客户端是 producer 和 consumer,提供一些API,服务器端是Broker,客户端提供可...
分类:
其他好文 时间:
2015-05-04 23:45:03
阅读次数:
194
一个web项目的团队往往具有以下角色的人员组成:project stakeholder(client or business owner)产品经理Project manager 项目经理producer 制片人editor/copywriter编辑和文案人员information archite.....
分类:
Web程序 时间:
2015-05-04 19:43:37
阅读次数:
179
Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html官方的英文文档 介绍的比较全面。 不过这里写写自己的见解这个是flume的架构图从上图可以看到几个名词...
分类:
Web程序 时间:
2015-05-02 01:01:18
阅读次数:
348
kafka采用了一些非主流(unconventional)并经过实践的设计使其高效和可扩展。在实际使用中kafka显示出了相对于常见流行的消息系统的优越性。并且每天能够处理上百GB的新的数据。类似收集实时数据来获得查询、推荐、广告方感兴趣的内容时,需要计算大量细粒度的点击率,还包括那些没有点击的页面...
分类:
其他好文 时间:
2015-05-01 23:52:47
阅读次数:
150
kafka.cluster包定义了Kafka的基本逻辑概念:broker、cluster、partition和replica——这些是最基本的概念。只有弄懂了这些概念,你才真正地使用kakfa来帮助完成你的需求。因为scala文件不多,还是老规矩,我们一个一个分析。一、Broker.scalabro...
分类:
其他好文 时间:
2015-04-29 11:27:15
阅读次数:
168
//PECS:producer-extends-comsumer-super
import com.google.common.collect.Lists;
import java.util.Arrays;
import java.util.List;
/**
* Created by jianjun.yu on 15-4-21.
*/
public class GTest {
...
分类:
编程语言 时间:
2015-04-28 22:56:47
阅读次数:
307