2017-04-12 补充说明: 默认安装了 python-2.7.13.amd64.msi 之后,执行下面的命令,提示【VCBuild.exe】不存在,要求 1 提示错误: 1 2 解决方法,==管理员权限==下执行命令: 1 该命令会安装Build所需的所有命令,也包括了【python】,也就是 ...
1 功能说明 设计一个topology,来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分: SentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。 SplitBolt:负责将单行文本记录(句子)切分成单词 CountBolt:负责对单词的频率进行累加 ...
分类:
其他好文 时间:
2018-01-24 17:03:04
阅读次数:
226
一、业务背景+系统架构 本次场景为kafka+storm+redis+hbase,通过kafka的数据,进入storm的spout组件接收,转由storm的Bolt节点进行业务逻辑处理,最后再推送进kafka。 表数据相关的逻辑为:查询Hbase表数据,首次查询会写入redis和storm cach ...
分类:
其他好文 时间:
2018-01-24 16:51:38
阅读次数:
436
1 流式计算 流式计算:数据实时产生、实时传输、实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。 一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结 ...
分类:
其他好文 时间:
2018-01-24 12:41:12
阅读次数:
231
hadoop体系结构杂谈 今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现,MapReduce的模型计算,到一个云盘如何实现,再到Google分布式史上那最伟大的三篇文 ...
分类:
其他好文 时间:
2018-01-23 01:04:50
阅读次数:
219
Spark Streaming处于Spark生态技术栈中,可以和Spark Core和Spark SQL无缝整合;而Storm相对来说比较单一; (一)概述 Spark Streaming Spark Streaming是Spark的核心API的一个扩展,可以实现高吞吐量、具有容错机制的实时流数据的 ...
分类:
其他好文 时间:
2018-01-23 00:57:38
阅读次数:
191
Git经常使用命令备忘: Git配置 git config --global user.name "storm" git config --global user.email "stormzhang.dev@gmail.com" git config --global color.ui true g ...
分类:
其他好文 时间:
2018-01-21 19:19:10
阅读次数:
245
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 背景介绍 Kafka创建背景 Kafka是一个消息系统,原本开发自Li ...
分类:
其他好文 时间:
2018-01-21 16:23:21
阅读次数:
154
Storm安装 1、启动zookeeper集群 2、上传解压storm包 3、进入解压包,配置conf目录下的storm.yaml文件 a) 这里配置zookeeper节点,可以用ip或者域名 b) 配置nimbus.host作为主节点名 1、将解压的storm包分发到各个节点 2、scp -r a ...
分类:
其他好文 时间:
2018-01-19 23:26:32
阅读次数:
215
1:初次运行Strom程序出现如下所示的错误,贴一下,方便脑补,也希望帮助到看到的小伙伴: 错误如下所示,主要问题是刚开始使用maven获取jar包的时候需要写<scope>provided</scope>,运行的时候需要把这行注释了即可,这是作用域的问题,开始需要在本地下载jar包,但是在虚拟机运 ...
分类:
编程语言 时间:
2018-01-19 15:44:40
阅读次数:
168