摘要:7月30日,七牛数据平台工程师王团结就七牛内部使用的数据平台,深入分享了该团队在Flume、Kafka、Spark以及Streaming上的实践经验,并讲解了各个工具使用的注意点。
继“ YARN or Mesos?Spark痛点探讨”、“ Mesos资源调度与管理的深入分享与交流”、及“ 主流SQL
on Hadoop框架选择”之后,CSDN Spark微信用户群邀请了王团结...
分类:
微信 时间:
2015-07-31 09:07:00
阅读次数:
297
kafka安装文档
1、解压缩(官网下载:http://kafka.apache.org/downloads.html)
tar -xzf kafka_2.10-0.8.2.0.tgz
cd kafka_2.10-0.8.2.0
2、启动server服务(包括zookeeper服务、kafka服务)
bin/zookeeper-server-start.sh conf...
分类:
其他好文 时间:
2015-07-30 00:49:04
阅读次数:
141
生产者
import java.util.Properties;
import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;
import kafka.serializer.StringEncoder;
...
做软件开发的都知道模块化思想,这样设计的原因有两方面: 一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出/存储” ? 1).数据采集 负责从各节点上实时采集数据,选用cloud...
分类:
Web程序 时间:
2015-07-27 21:13:48
阅读次数:
185
上一篇中分析了Scala版的console producer代码,这篇文章来分析一下console consumer的工作原理。其实不论是哪个consumer,大部分的工作原理都是类似的。我们用console consumer作为切入点,既容易理解又不失一般性。首先需要说明的,我使用的Kafka环境...
分类:
其他好文 时间:
2015-07-26 12:37:42
阅读次数:
653
最近在搞kafak+storm+flume实时处理,但是kafka与storm总是会自己莫名死掉,查看日志就是下面的内容: 2015-07-22T03:15:31.808+0800?b.s.event?[INFO]?Event?manager?interrupted 2015-07-22T03:15:31.808...
分类:
其他好文 时间:
2015-07-22 16:44:13
阅读次数:
134
elasticsearch.ymlcluster.name: elasticsearch配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。node.name: "Franz Kafka"节点名,默认随...
分类:
其他好文 时间:
2015-07-21 23:32:50
阅读次数:
178
看如下代码段,kafka sink的key完全取决于上游发来的event中的header。所以,如果前面的source是像exec这样的source,由于其中的header为null,所以到了这就发到kafka中就是没key的。没key的情况下,kafka就做不了...
分类:
其他好文 时间:
2015-07-21 15:30:56
阅读次数:
97
以读取kafka metrics为例。 实际使用中可将读取的metrics存入时序数据库中,然后从页面展示。kafka-manager等不支持历史的指标展示。 JMXClient.scala import?javax.management.remote.{JMXConnector,?JMXConn...
分类:
其他好文 时间:
2015-07-21 15:30:47
阅读次数:
124
1、所有主机需要安装JDK,并配置JDK环境变量 2、所有主机安装SSH,并相互间实现无密访问 3、修改主机hosts :文件/etc/hosts,保证各机器通过机器名可以互访 4、安装python 2.6及以上(storm用) 5、ZeroMQ Java代...
分类:
Web程序 时间:
2015-07-20 17:06:59
阅读次数:
170