首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候 你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就可以方便地插入用户写的处理代码并在查询中使用它们,相当于在HQL(Hive SQL)中自定义一些函数 ...
分类:
其他好文 时间:
2018-08-27 18:32:57
阅读次数:
142
# -*- coding:utf-8 -*- from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext import math appName = "jhl_spark_1" ... ...
分类:
其他好文 时间:
2018-08-27 18:24:53
阅读次数:
304
导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。 本文依次从spark生态,原理,基 ...
分类:
其他好文 时间:
2018-08-26 14:13:11
阅读次数:
166
从RTSP协议(传输媒体流)的直播到 HTTP TS(ts分片 编码器之后的ts分片,html文件)(APPLE的Live streaming方案)转换工作。 HTTP Live Streaming(缩写是HLS)是一个由苹果公司提出的基于HTTP的流媒体网络传输协议。是苹果公司QuickTime ...
分类:
Web程序 时间:
2018-08-25 14:33:32
阅读次数:
239
一、 Spark Streaming 构建在Spark core API之上,具备可伸缩,高吞吐,可容错的流处理模块。 1)支持多种数据源,如Kafka,Flume,Socket,文件等; Basic sources: Sources directly available in the Stream ...
分类:
其他好文 时间:
2018-08-25 14:13:02
阅读次数:
188
事情经过:之前该topic(M_A)已经存在,而且正常消费了一段时间,后来删除了topic(M_A),重新创建了topic(M-B),程序使用新创建的topic(M-B)进行实时统计操作,执行过程中抛出了一下异常: 错误原因,在structured streaming编程时,使用checkpoint ...
分类:
其他好文 时间:
2018-08-24 13:27:28
阅读次数:
272
Window: 在Streaming中,数据是无限且连续的,我们不可能等所有数据都到才进行处理,我们可以来一个就处理一下,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算 ...
1.说明 虽然DStream可以转换成RDD,但是如果比较复杂,可以考虑使用SparkSQL。 2.集成方式 Streaming和Core整合: transform或者foreachRDD方法 Core和SQL整合: RDD <==> DataFrame 互换 3.程序 4.效果 ...
分类:
数据库 时间:
2018-08-16 22:28:07
阅读次数:
224
这段程序没有验证,应该不会有问题。 是HA与updateStateByKey相结合的程序。 1.程序 ...
分类:
其他好文 时间:
2018-08-15 21:36:37
阅读次数:
179
今天在做代码重构,以前将所有python文件放到一个文件夹下,上传到hadoop上跑,没有问题;不过随着任务的复杂性增加,感觉这样甚是不合理,于是做了个重构,建了好几个包存放不同功能的python文件,历程如下: 1. 刚开始的时候,在IDE里搞,点击运行,正确、非常赞; 2. 然后搬到服务器上搞, ...
分类:
编程语言 时间:
2018-08-10 19:51:12
阅读次数:
998