一、概述 形成了安装有vim、jdk、ssh的centos镜像,现在我们在这个的基础上继续搭建haoop。 在正式开始前,了解一些docker容器的操作命令 docker ps:查看活动的容器 docker ps -a:查看所有的容器(包括终止状态的) docker images:查看镜像 dock ...
分类:
其他好文 时间:
2018-05-10 19:32:29
阅读次数:
179
一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e ...
分类:
其他好文 时间:
2018-04-20 22:00:16
阅读次数:
634
参考网址: "How to store custom objects in Dataset?" ...
分类:
其他好文 时间:
2018-03-31 23:57:55
阅读次数:
303
.具体场景如下: spark1.6 升级 spark2.2 后 分析查询hbase 数据报异常: 后发现spark2.2 引入的包路径为 org.htrace htrace-core-3.0.4 版本的时候路径是 org.htrace 而3.1.0的时候已经贡献给Apache了,改叫org.apac ...
分类:
其他好文 时间:
2018-03-21 15:07:38
阅读次数:
207
函数代码: 使用spark-submit提交函数时,抛出异常: 解决方案: 把当前MySparkJob集成Serializable ...
分类:
其他好文 时间:
2018-03-15 00:35:05
阅读次数:
271
最近看到有几个Github友关注了Streaming的监控工程—— "Teddy" ,所以思来想去还是优化下代码,不能让别人看笑话,是不。于是就想改在一下之前最丑陋的一个地方——任务提交 本博客内容基于Spark2.2版本~在阅读文章并想实际操作前,请确保你有: 1. 一台配置好Spark和yarn ...
分类:
编程语言 时间:
2018-03-10 14:04:40
阅读次数:
897
最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本,其中遇到将case when 替换为scala操作df的方式实现的问题: 代码数据: 错误代码: 错误的愿意就是这里的判定是否为空的地方。 正确用法: 疑问代码,如下代码在spark-shell中执行没有问题,但是使用sp ...
分类:
其他好文 时间:
2018-03-08 00:19:56
阅读次数:
332
版本 spark2.0 1.在SparkSession类里存在变量SparkContext,而一个spark任务只能有一个SparkContext且只能存在driver里,更改参数可以设置允许存在多个SparkContext但只能有一个是激活状态。因此,不能在foreachPartition这种需要 ...
分类:
其他好文 时间:
2018-03-06 17:00:30
阅读次数:
158
测试spark版本: 备注:spark1.5中没有提供rdd.combineByKeyWithClassTag算子,但提供的有rdd.combineByKey算子(spark2.1中依然保留)。 使用示例: ...
分类:
其他好文 时间:
2018-03-04 23:55:32
阅读次数:
736
Spark2.2源码下载 点此进入官网下载地址: 下载Spark spark官网下载截图 //下载好后用传输工具传输到我们的linux上并解压缩 tar -zxvf spark-2.2.0.tgz 源码编译 准备工作 根据Spark官方文档可知,需要java8+,maven 3.3.9+版本 spa ...
分类:
其他好文 时间:
2018-02-23 12:00:12
阅读次数:
214