由于做数据处理时,经常遇到maven 下载依赖包错误,下面我将自己下载好的repository 分享下 里边包含:Hadoop ,storm ,sprk ,kafka ,等 压缩后500多M。 http://pan.baidu.com/s/1pJN2ScV 如有问题请联系: chaoren399@1...
分类:
其他好文 时间:
2015-08-28 00:36:13
阅读次数:
113
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoo...
分类:
Web程序 时间:
2015-08-27 18:32:36
阅读次数:
184
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实 时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读...
分类:
Web程序 时间:
2015-08-27 18:32:29
阅读次数:
302
往kafka发送消息时失败,抛出错误信息:kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries。列出分析过程和解决方案,遇到问题的朋友可参考。...
分类:
其他好文 时间:
2015-08-27 13:33:24
阅读次数:
24863
实际上kafka对机器的需求与Hadoop的类似。原来,对于Linkin这样的互联网企业来说,用户和网站上产生的数据有三种:需要实时响应的交易数据,用户提交一个表单,输入一段内容,这种数据最后是存放在关系数据库(Oracle,MySQL)中的,有些需要事务支持。活动流数据,准实时的,例如..
分类:
其他好文 时间:
2015-08-25 17:03:36
阅读次数:
237
在Kafak中国社区的qq群中,这个问题被提及的比例是相当高的,这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。怎么确定分区数? “我应该选择几个分区?”——如果你在Kafka中国社区的群里,这样的问题你会经常碰到的。不过有些遗憾的....
分类:
编程语言 时间:
2015-08-25 14:12:36
阅读次数:
257
先上几个git地址,明天测试 https://github.com/linkedin/camus https://github.com/voyage-h/kafka-hadoop-consumer https://github.com/voyage-h/kafka-hadoop-consumer...
分类:
其他好文 时间:
2015-08-25 13:04:43
阅读次数:
152
当你编写kafka Producer时, 会生成KeyedMessage对象。 KeyedMessage<K,?V>?keyedMessage?=?new?KeyedMessage<>(topicName,?key,?message) 这里的key值可以为空,在这种情况下, kafka会将这个消息发送到哪...
分类:
其他好文 时间:
2015-08-25 13:03:42
阅读次数:
334
ZooKeeper
安装
#将ZooKeeper解压到/usr/local中
tar –zxvf zookeeper-3.4.6.tar.gz –C /usr/local
cd /usr/local
#重命名
sudo mv zookeeper-3.4.6 zookeeper
cd zookeeper/conf
sudo cp zoo_sample.cfg zoo.cfg
配置
...
分类:
其他好文 时间:
2015-08-19 13:35:19
阅读次数:
168
kafka的并行度与JStorm性能优化
> Consumers
Messaging traditionally has two models: queuing and publish-subscribe. In a queue, a pool of consumers may read from a server and each message goes to one of th...
分类:
Web程序 时间:
2015-08-18 01:20:54
阅读次数:
1040