主要原因在与spark2+的版本对jdk进行了检查导致的,换了低版本的jdk之后,发现版本不支持,spark2.+需要使用jdk1.8+以上的版本,把jdk版本切换过来。在yarn的配置文件添加一下配置即可。 最后,最后,最后,不要忘记重启hadoop,不然在去执行还是会报错的。 ...
分类:
其他好文 时间:
2019-07-01 13:44:31
阅读次数:
153
1.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则我们每 ...
分类:
其他好文 时间:
2019-07-01 10:25:19
阅读次数:
138
近来在做项目中的技术调研,使用最新版的hdp3.1,其中使用spark2.3和hive 3.1. 遇到 一些问题,记录如下: 一,使用spark-sql client driver去访问hive创建的数据库,发现找不到,使用presto访问hive,只能读写外部表。 经过查询资料了解到,hive3. ...
分类:
其他好文 时间:
2019-05-11 12:17:22
阅读次数:
471
包下载: 步骤: 集成spark CDH版本是5.14.0 spark安装版本是:2.1.0 包下载: parcel包下载 http://archive.cloudera.com/spark2/parcels/ 安装spark2 还要注意的是:在spark historyserver这台机器上,创建 ...
分类:
其他好文 时间:
2019-05-08 13:20:31
阅读次数:
159
一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e ...
分类:
其他好文 时间:
2019-05-07 21:36:24
阅读次数:
192
从零手把手编译spark2.4.2!+hadoop-2.6.0-cdh5.14.0
分类:
其他好文 时间:
2019-04-29 12:29:24
阅读次数:
252
UDF即用户自定函数,注册之后,在sql语句中使用。 基于scala-sdk-2.10.6,Spark2.0.0。 结果 ...
分类:
数据库 时间:
2019-04-25 16:10:50
阅读次数:
331
一。 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess ...
分类:
其他好文 时间:
2019-04-13 10:40:54
阅读次数:
148
最近在CM集群上集成组件,但是发现好多组件都不支持JDK1.7.要使用1.8的jdk才可以的比如spark2.2。还有Streamsets等组件。特别是比较新的组件都有这个问题出现 所以升级jdk是必须的事情了。具体的操作步骤详见下面这个链接: http://vlambda.com/wz_yLrxM ...
分类:
编程语言 时间:
2019-01-28 16:07:34
阅读次数:
207
业务需求 实现一个根据spark任务的appName来监控任务是否存在,及任务是否卡死的监控。 1)给定一个appName,根据appName从yarn application -list中验证任务是否存在,不存在则调用spark-submit.sh脚本来启动任务; 2)如果任务存在yarn app ...
分类:
移动开发 时间:
2019-01-08 23:38:01
阅读次数:
387