搜索关键字：spark history，搜索到9960个结果！码迷,mamicode.com！

SparkShuffle机制

在早期版本的Spark中，shuffle过程没有磁盘读写操作，是纯内存操作，后来发现效率较低，且极易引发OOME，较新版本的Shuffle操作都加入了磁盘读写进行了改进。 1、未经优化的HashShuffleManager：上一个stage中每一个task会对下一个stage的每一个task写一份数 ...

分类：其他好文时间：2020-02-20 20:29:21 阅读次数：62

Spark组件间通信

1、Spark组件之间使用RPC机制进行通信。RPC的客户端在本地编写并调用业务接口，接口在本地通过RPC框架的动态代理机制生成一个对应的实现类，在这个实现类中完成soket通信、远程调用等功能的逻辑包装，而在RPC的服务端既编写业务接口也编写了具体的业务实现类，通过RPC框架以接口的方式暴露出来， ...

分类：其他好文时间：2020-02-20 20:17:31 阅读次数：57

Spark内存管理

1、spark的一大特性就是基于内存计算，Driver只保存任务的宏观性的元数据，数据量较小，且在执行过程中基本不变，不做重点分析，而真正的计算任务Task分布在各个Executor中，其中的内存数据量大，且会随着计算的进行会发生实时变化，所以Executor的内存管理才分析的重点。 2、在执行Sp ...

分类：其他好文时间：2020-02-20 19:53:27 阅读次数：56

大数据技术学习之Spark技术总结

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)。 1、Spark的核心是什么? RDD是Spark的基本抽象,是 ...

分类：其他好文时间：2020-02-20 17:10:10 阅读次数：121

RDD、DataFrame和DataSet

https://blog.csdn.net/weixin_43087634/article/details/84398036 2、什么是DataFrame 在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。 3、RDD和DataFrame的区别 Da ...

分类：其他好文时间：2020-02-20 09:59:48 阅读次数：70

2018.5.5铁三数据赛（第三赛区）复现

1、pcap 题目： 1. 黑客攻击的第一个受害主机的网卡IP地址 1. 黑客对URL的哪一个参数实施了SQL注入 1. 第一个受害主机网站数据库的表前缀（加上下划线例如abc_） 1. 第一个受害主机网站数据库的名字 2. Joomla后台管理员的密码是多少先过滤http协议外网ip/黑 ...

分类：其他好文时间：2020-02-19 17:12:11 阅读次数：123

Windows QT 配置 Boost

设置环境变量找到QT的安装目录，并把下面的路径添加到系统环境变量中 C:\Qt\Qt5.9.2\Tools\mingw530_32\bin 下载boost并解压https://www.boost.org/users/history/version_1_69_0.html 生成编译文件通过命令进入下面 ...

分类：Windows程序时间：2020-02-19 16:55:39 阅读次数：144

大数据开发：Hadoop配置

一、相关知识回顾分布式文件存储信息源：购买信息元（对海量数据清洗）自营提供（限于大公司）爬虫、抓包信息格式：文件、文本、sql、json 分布式计算离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移：hdfs mysql flume数据上 ...

分类：其他好文时间：2020-02-19 10:28:03 阅读次数：94

（3）spark核心概念以及运行架构

spark核心概念我们之前介绍了spark的核心RDD，它是spark操作的基本单元。但是对于spark集群来说你还需要它的其它概念，比如我们操作RDD的时候，资源由谁来管理、任务由谁来执行等等。 + + + + + + + + + 东西有点多，我们可以梳理一下。假设我们有一个应用程序：appli ...

分类：其他好文时间：2020-02-18 23:23:35 阅读次数：169

IDEA开发scala版本的spark程序

package com.gong import org.apache.spark.{SparkConf, SparkContext} object MyScalaWorldCount { def main(args: Array[String]): Unit = { //参数检测 if(args.l ...

分类：其他好文时间：2020-02-18 18:56:10 阅读次数：75

共9960条上一页 1 ... 76 77 78 79 80 ... 996 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)