上一节搭建完了Hive,这一节我们来搭建ZooKeeper,主要是后面的kafka需要运行在上面。 ZooKeeper下载和安装 下载ZooKeeper 3.4.5软件包,可以在百度网盘进行下载。链接: http://pan.baidu.com/s/1gePE9O3 密码: unmt。 下载完用Xf ...
分类:
其他好文 时间:
2016-08-07 18:47:50
阅读次数:
296
Spark搭建集群比较繁琐,需要的内容比较多,这里主要从Centos、Hadoop、Hive、ZooKeeper、kafka的服务器环境搭建开始讲。其中Centos的搭建不具体说了,主要讲下集群的配置。 环境搭建软件包 由于我是直接拿了三台现成的Centos 5.6的系统上进行搭建的,所以Cento ...
分类:
其他好文 时间:
2016-08-06 20:31:34
阅读次数:
111
kafka版本0.8.2.1 Java客户端版本0.9.0.0 为了更好的实现负载均衡和消息的顺序性,Kafka Producer可以通过分发策略发送给指定的Partition。Kafka保证在partition中的消息是有序的。Kafka Java客户端有默认的Partitioner。实现如下: ...
分类:
其他好文 时间:
2016-08-06 14:12:38
阅读次数:
524
解压kafka 打开后是一堆.jar结尾的文件,那么后缀.jar的是什么文件? JAR 文件就是 Java Archive File,顾名思意,它的应用是与 Java 息息相关的,是 Java 的一种文档格式。 解压kafka 打开后是一堆.jar结尾的文件,那么后缀.jar的是什么文件? JAR ...
分类:
编程语言 时间:
2016-08-05 13:36:43
阅读次数:
678
这里分析一下message的封装类ByteBufferMessageSet类 ByteBufferMessageSet类的源代码在源代码目录message目录下.这个类主要封装了message,messageset,messageandoffset等类的对象.在Log类中读写log的时候基本上都是以 ...
分类:
其他好文 时间:
2016-08-04 19:20:30
阅读次数:
184
单个进程 logstash 可以实现对数据的读取、解析和输出处理。但是在生产环境中,从每台应用服务器运行 logstash 进程并将数据直接发送到 Elasticsearch 里,显然不是第一选择:第一,过多的客户端连接对 Elasticsearch 是一种额外的压力;第二,网络抖动会影响到 log ...
分类:
其他好文 时间:
2016-08-04 13:10:28
阅读次数:
299
Kafka入门初探+伪集群部署 Kafka是目前非常流行的消息队列中间件,常用于做普通的消息队列、网站的活性数据分析(PV、流量、点击量等)、日志的搜集(对接大数据存储引擎做离线分析)。 全部内容来自网络,可信度有待考证!如有问题,还请及时指正。 概念介绍 在Kafka中消息队列分为三种角色: pr ...
分类:
其他好文 时间:
2016-08-03 23:52:12
阅读次数:
156
一、消息传递模型 传统的消息队列最少提供两种消息模型,一种P2P,一种PUB/SUB,而Kafka并没有这么做,巧妙的,它提供了一个消费者组的概念,一个消息可以被多个消费者组消费,但是只能被一个消费者组里的一个消费者消费,这样当只有一个消费者组时就等同与P2P模型,当存在多个消费者组时就是PUB/S ...
分类:
其他好文 时间:
2016-08-03 23:46:30
阅读次数:
265
这里分析Log对象本身的源代码. Log类是一个topic分区的基础类.一个topic分区的所有基本管理动作.都在这个对象里完成.类源代码文件为Log.scala.在源代码log目录下. Log类是LogSegment的集合和管理封装.首先看看初始化代码. 上面是Log class初始化的部分.这个 ...
分类:
其他好文 时间:
2016-08-03 18:27:00
阅读次数:
540
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低 ...
分类:
其他好文 时间:
2016-08-03 10:20:28
阅读次数:
236