###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:
其他好文 时间:
2020-11-26 15:06:55
阅读次数:
6
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:
其他好文 时间:
2020-11-23 12:25:04
阅读次数:
5
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:
其他好文 时间:
2020-11-21 12:35:33
阅读次数:
5
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:
其他好文 时间:
2020-11-20 12:05:39
阅读次数:
11
写了jmeter脚本后使用jenkins来构建,使用ant来集成 1.服务器安装jenkins+jmeter+ant+jdk 并且配置环境变量 2.设置slave节点(运行job的节点) 配置目录地址(按照jenkins安装目录) 运行job数量(按照机器资源设置) 启动方式(通过agent.jar ...
分类:
其他好文 时间:
2020-11-20 11:35:17
阅读次数:
5
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:
其他好文 时间:
2020-11-18 13:12:54
阅读次数:
8
在jenkins持续集成工作中,有时需要使用到job的构建时间,那么,如何获取到job每次的构建时间呢? 在jenkins的内置环境变量中,没有job的构建时间变量,要获取job的构建时间,可以安装Build Timestamp Plugin并使用BUILD_TIMESTAMP变量,具体步骤如下: ...
分类:
其他好文 时间:
2020-11-17 12:57:27
阅读次数:
34
package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org ...
分类:
其他好文 时间:
2020-11-16 13:25:07
阅读次数:
3
12个行业月均阅读超100亿,看Spark如何助力微博Feed算法提升活跃度#编者按:本文由高可用架构向黄波约稿,介绍黄波在SparkSummitChina2016中的演讲精华,并侧重对微博系统和Feed系统进行了更多的介绍。黄波,2010年加入新浪微博,微博研发中心Feed技术专家,负责微博Feed流排序和推荐相关项目。目前专注于基于Spark、Storm等计算平台的大数据处理,致力于将分布式计
分类:
编程语言 时间:
2020-11-16 13:06:48
阅读次数:
9
一、用到的工具 Gitlab Jenkins Shell go test 二、实现原理 在gitlab上配置jenkins的webhook,当有代码变更时自动触发jenkins构建job,job内的shell脚本负责把覆盖率报告以钉钉群通知的方法发送出去。 三、Jenkins job配置 点击上图中 ...
分类:
其他好文 时间:
2020-11-13 12:14:17
阅读次数:
7