一.简介 参考博客:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 三.结果 随机生成的顶点数据: 聚合结果: ...
分类:
其他好文 时间:
2019-10-23 16:47:20
阅读次数:
126
spark 资源调度包 Stage(阶段) 类解析 类注释: 代码: ...
分类:
其他好文 时间:
2019-10-22 23:45:51
阅读次数:
94
大数据环境与docker 在使用CDH构建在k8s上的时候遇到了异常困难的问题,其检查机制会将解析主机的IP作为目标容器的IP,导致两者无法正常安装部署,只能放弃已经做好的容器镜像,之后在不断的寻找中终于到了可以达到预期目标的方法。 首先是找到了Spark的两个容器镜像: https://hub.d ...
分类:
其他好文 时间:
2019-10-22 15:28:22
阅读次数:
141
解决方案: 在conf后面加上. set("spark.testing.memory", "471859201")bug报错: Exception in thread "main" java.lang.IllegalArgumentException: System memory 259522560... ...
分类:
其他好文 时间:
2019-10-22 15:14:36
阅读次数:
358
Django学习之文件下载 在实际的项目中很多时候需要用到下载功能,如导excel、pdf或者文件下载,当然你可以使用web服务自己搭建可以用于下载的资源服务器,如nginx,这里我们主要介绍django中的文件下载。 我们这里介绍三种Django下载文件的简单写法,然后使用第三种方式,完成一个高级 ...
分类:
其他好文 时间:
2019-10-21 09:44:43
阅读次数:
116
姓名:江磊 学号:201821121059 班级:计算1812 目录 1 实验目的 2 实验内容 3. 实验报告 3.1 建立网络拓扑结构 3.2 配置参数 3.3 抓包,分析TCP连接建立过程 4. 拓展 (不作要求,但属于加分项) 姓名:江磊 学号:201821121059 班级:计算1812 ...
分类:
其他好文 时间:
2019-10-20 10:51:16
阅读次数:
92
一:Sparksql列操作 初始化SparkContext及数据: import java.util.Arrays import org.apache.spark.SparkConfimport org.apache.spark.api.java.JavaSparkContextimport org ...
分类:
数据库 时间:
2019-10-20 10:35:33
阅读次数:
100
围绕spark的其他特性和应用。主要包括以下几个方面 spark自定义分区 spark中的共享变量 spark程序的序列化问题 spark中的application/job/stage/task之间的关系 spark on yarn原理和机制 spark的资源分配方式 1. spark自定义分区 1 ...
分类:
其他好文 时间:
2019-10-19 20:33:15
阅读次数:
102
基于Centos7编译spark指定Hadoop版本 0 摘要 主要探究了如何对spark源码进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译spark源码呢?官网已经提供了预编译的版本了啊,但是如果你对spark源码进行了修改或者spark提供了 ...
分类:
其他好文 时间:
2019-10-19 15:02:25
阅读次数:
125
序列化问题多事rdd遍历过程中使用了没有序列化的对象。 1.将未序列化的变量定义到rdd遍历内部。如定义入数据库连接池。 2.常量定义里包含了未序列化对象 ,提出去吧 如下常量要放到main里,不能放到rdd的遍历中。 ...
分类:
编程语言 时间:
2019-10-18 18:57:19
阅读次数:
132