大数据科学丛书系列的最新一本《Scala语言基础与开发实战》即将面市,预计月底上架。内容还是不错的,文笔简介,内容实用,值得学、用。大数据资深培训师王家林新作。详细介绍大数据开发语言Scala及其在分布式框架Akka和Kafka中的应用。秉承“实战”类图书特点,解析大量代码的..
分类:
编程语言 时间:
2016-07-07 17:41:26
阅读次数:
280
1.自身日志量过大的问题 kafka运行一段时间之后,会发现它的主机磁盘使用率在缓慢增长,查看数据日志的持有量还是之前设置的阈值。 这时候其实是kafka自身的日志打印撑爆磁盘。 默认的~/kafka_2.11-0.9.0.0/config/log4j.properties如下: 可以看到它自身日志 ...
分类:
其他好文 时间:
2016-07-06 23:26:39
阅读次数:
211
先看 AbstractFetcher 这个可以理解就是,consumer中具体去kafka读数据的线程,一个fetcher可以同时读多个partitions的数据来看看 /** * Base class for all fetchers, which implement the connection... ...
分类:
其他好文 时间:
2016-07-06 21:32:24
阅读次数:
445
前言:通常情况下,我们将Kafka的日志数据通过logstash订阅输出到ES,然后用Kibana来做可视化分析,这就是我们通常用的ELK日志分析模式。但是基于ELK的日志分析,通常比较常用的是实时分析,日志存个十天半个月都会删掉。那么在一些情况下,我需要将日志数据也存一份到我HDFS,..
分类:
其他好文 时间:
2016-07-06 18:47:15
阅读次数:
850
1、什么是kafka?
kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。
kafka目前支持多种客户端语言:java,...
分类:
编程语言 时间:
2016-07-06 11:57:09
阅读次数:
745
输入DStreams表示从数据源获取的原始数据流。Spark Streaming拥有两类数据源
(1)基本源(Basic sources):这些源在StreamingContext API中直接可用。例如文件系统、套接字连接、
Akka的actor等。
(2)高级源(Advanced sources):这些源包括Kafka,Flume,Kinesis,Twitter等等。
1、基本数据...
分类:
其他好文 时间:
2016-07-06 10:24:06
阅读次数:
863
1.背景 起源于Linkedin,在apache开源,基于发布订阅的分布式消息系统。 1.背景 起源于Linkedin,在apache开源,基于发布订阅的分布式消息系统。 2.特点 高吞吐量:单机每秒几百MB的读写 消息持久化 高扩展性 高可靠性 支持多消费者(这个是比较重要的特点) 3.拓扑结构 ...
分类:
其他好文 时间:
2016-07-06 00:28:01
阅读次数:
196
More interest,less interests. 本博客分享包括但不限于大数据开发、分布式系统、服务端开发等方面,原csdn博客(主要是本科写的的数据结构和算法)停更。 本博客以学习、分享为主,转载请注明出处。 Kafka 设计模式 分布式系统 ...
分类:
其他好文 时间:
2016-07-06 00:13:24
阅读次数:
121
在这篇文章中,我将要介绍如何搭建和使用Apache Kafka在windows环境。在开始之前,简要介绍一下Kafka,然后再进行实践。 Apache Kafka Kafka是分布式的发布-订阅消息的解决方案。相比于传统的消息系统,Kafka快速,可扩展,耐用。想象一下传统的发布-订阅消息系统,pr ...
一、问题背景 Python 写的脚本,不断从txt文件中读取一行数据封装成消息,作为producer发给kafka, storm的spout从kafka中读取这些消息后做一些处理发送给bolt,bolt最后将数据按既定的格式写入到HBASE 二、问题描述 一共14000条左右的数据,加调试信息观察到 ...
分类:
编程语言 时间:
2016-07-05 17:05:01
阅读次数:
1853