Spark Streaming: Spark用于处理流式数据的模块,类似Storm 核心:DStream(离散流),就是一个RDD 一、Spark Streaming基础 1、什么是Spark Streaming? (*)Spark Streaming makes it easy to build ...
分类:
其他好文 时间:
2018-04-03 17:27:52
阅读次数:
3133
spark streaming是建立在spark core之上的,也就说spark streaming任务最终执行还是依赖于RDD模型。在转化成最终的RDD模型执行前,spark streaming主要需要处理以下几个问题: a,每个batch的RDD是怎么根据用户的代码生成的(对应JobGener ...
分类:
其他好文 时间:
2018-03-29 20:08:45
阅读次数:
162
不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 目录: 1、描述 2、操作 3、注意事项 1、描述 1、描述 Spark是一种通用的大数据快速处理引擎。Spark使用Spark RDD、 Spark SQL、 Spark Streaming、 MLlib、 GraphX成功解决了大数据 ...
分类:
其他好文 时间:
2018-03-22 21:25:30
阅读次数:
528
你:kafka是什么? 我:嗯,这个嘛。。看官网。 Apache Kafka® is a distributed streaming platform Kafka is generally used for two broad classes of applications: Building re ...
分类:
其他好文 时间:
2018-03-22 17:29:11
阅读次数:
189
从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方式实现了实时处理框架。为进一步了解spark streaming的相关内容,飞马网于3月20日晚邀请到历任百度大数据的高级工程师—王富平,在线上直播中,王老师针对spark streaming高级特性
分类:
其他好文 时间:
2018-03-21 21:14:25
阅读次数:
228
对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到 ...
分类:
其他好文 时间:
2018-03-21 21:14:16
阅读次数:
724
转载: http://www.xuanyusong.com/archives/3229 特殊文件夹如图: 1.Editor Editor文件夹可以在根目录下,也可以在子目录里,只要名子叫Editor就可以。比如目录:/xxx/xxx/Editor 和 /Editor 是一样的,无论多少个叫Edito ...
分类:
编程语言 时间:
2018-03-18 18:46:55
阅读次数:
171
转自:https://www.cnblogs.com/lidabo/p/6553212.html RTSP简介 RTSP(Real Time Streaming Protocol)是由Real Network和Netscape共同提出的如何有效地在IP网络上传输流媒体数据的应用层协议。RTSP对流媒 ...
分类:
其他好文 时间:
2018-03-13 13:54:27
阅读次数:
189
最近看到有几个Github友关注了Streaming的监控工程—— "Teddy" ,所以思来想去还是优化下代码,不能让别人看笑话,是不。于是就想改在一下之前最丑陋的一个地方——任务提交 本博客内容基于Spark2.2版本~在阅读文章并想实际操作前,请确保你有: 1. 一台配置好Spark和yarn ...
分类:
编程语言 时间:
2018-03-10 14:04:40
阅读次数:
897
spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop ...
分类:
其他好文 时间:
2018-03-08 18:06:11
阅读次数:
181