在早期版本的Spark中,shuffle过程没有磁盘读写操作,是纯内存操作,后来发现效率较低,且极易引发OOME,较新版本的Shuffle操作都加入了磁盘读写进行了改进。 1、未经优化的HashShuffleManager:上一个stage中每一个task会对下一个stage的每一个task写一份数 ...
分类:
其他好文 时间:
2020-02-20 20:29:21
阅读次数:
62
1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口,接口在本地通过RPC框架的动态代理机制生成一个对应的实现类,在这个实现类中完成soket通信、远程调用等功能的逻辑包装,而在RPC的服务端既编写业务接口也编写了具体的业务实现类,通过RPC框架以接口的方式暴露出来, ...
分类:
其他好文 时间:
2020-02-20 20:17:31
阅读次数:
57
1、spark的一大特性就是基于内存计算,Driver只保存任务的宏观性的元数据,数据量较小,且在执行过程中基本不变,不做重点分析,而真正的计算任务Task分布在各个Executor中,其中的内存数据量大,且会随着计算的进行会发生实时变化,所以Executor的内存管理才分析的重点。 2、在执行Sp ...
分类:
其他好文 时间:
2020-02-20 19:53:27
阅读次数:
56
Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)。 1、Spark的核心是什么? RDD是Spark的基本抽象,是 ...
分类:
其他好文 时间:
2020-02-20 17:10:10
阅读次数:
121
https://blog.csdn.net/weixin_43087634/article/details/84398036 2、什么是DataFrame 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 3、RDD和DataFrame的区别 Da ...
分类:
其他好文 时间:
2020-02-20 09:59:48
阅读次数:
70
1、pcap 题目: 1. 黑客攻击的第一个受害主机的网卡IP地址 1. 黑客对URL的哪一个参数实施了SQL注入 1. 第一个受害主机网站数据库的 表前缀 (加上下划线例如abc_) 1. 第一个受害主机网站数据库的 名字 2. Joomla后台管理员的密码是多少 先过滤http协议 外网ip/黑 ...
分类:
其他好文 时间:
2020-02-19 17:12:11
阅读次数:
123
设置环境变量找到QT的安装目录,并把下面的路径添加到系统环境变量中 C:\Qt\Qt5.9.2\Tools\mingw530_32\bin 下载boost并解压https://www.boost.org/users/history/version_1_69_0.html 生成编译文件通过命令进入下面 ...
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:
其他好文 时间:
2020-02-19 10:28:03
阅读次数:
94
spark核心概念 我们之前介绍了spark的核心RDD,它是spark操作的基本单元。但是对于spark集群来说你还需要它的其它概念,比如我们操作RDD的时候,资源由谁来管理、任务由谁来执行等等。 + + + + + + + + + 东西有点多,我们可以梳理一下。假设我们有一个应用程序:appli ...
分类:
其他好文 时间:
2020-02-18 23:23:35
阅读次数:
169
package com.gong import org.apache.spark.{SparkConf, SparkContext} object MyScalaWorldCount { def main(args: Array[String]): Unit = { //参数检测 if(args.l ...
分类:
其他好文 时间:
2020-02-18 18:56:10
阅读次数:
75