承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算 要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配 pom.xm ...
分类:
其他好文 时间:
2017-10-09 14:14:50
阅读次数:
242
这是年初写的一个job,用于对api非法访问(大量403)进行统计,并有其他后续手段。写的比较通俗易懂,做个sample记录下 数据源是kafka stream,实时计算。规则是mysql配置的,简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp ...
分类:
编程语言 时间:
2017-10-09 13:06:25
阅读次数:
237
Spark Streaming与Storm都可以做实时计算,那么在做技术选型的时候到底应该选择哪个呢?通过下图可以从计算模型、计算延迟、吞吐量、事物、容错性、动态并行度等方方面进行对比。 对于Storm来说: 1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进 ...
分类:
其他好文 时间:
2017-10-07 15:00:20
阅读次数:
126
Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.org ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档 的活动,整体 翻译进度 为 9... ...
分类:
Web程序 时间:
2017-09-20 14:36:45
阅读次数:
263
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念可了解之 ...
分类:
其他好文 时间:
2017-09-12 16:01:23
阅读次数:
226
1、 计算提供两种模式,一种是jar包本地计算、一种是JSF服务。 2、 第一步是引入spark,因与netty、JDQ均有冲突,解决netty冲突后,隔离计算为单独服务。已在线上,因storm也与spark存 在运行时冲突,storm也在用服务。 3、 第二步是召回集扩量,发现当召回集由200扩到 ...
分类:
其他好文 时间:
2017-09-05 09:54:06
阅读次数:
151
1、storm介绍 storm是一种用于事件流处理的分布式计算框架,它是有BackType公司开发的一个项目,于2014年9月加入了Apahche孵化器计划并成为其旗下的顶级项目之一。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比 Hadoop 用于批 ...
分类:
其他好文 时间:
2017-08-24 01:10:25
阅读次数:
175
转自:http://shiyanjun.cn/archives/977.html Storm实时计算:流操作入门编程实践 Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念: Top ...
分类:
其他好文 时间:
2017-08-18 20:00:41
阅读次数:
245
我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队 ...
分类:
其他好文 时间:
2017-08-11 11:04:34
阅读次数:
210
在页面中做了一个简单的加法计算器,实现实时计算输入的数值: ...
分类:
Web程序 时间:
2017-08-05 17:57:23
阅读次数:
260