搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

https://blog.csdn.net/wengyupeng/article/details/52808503 一、方法 2种方式：二、例子 ...

分类：其他好文时间：2019-06-25 15:10:02 阅读次数：168

1.1 RDD为什么会产生？ RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备。数据更多面临 ...

分类：其他好文时间：2019-06-25 09:46:32 阅读次数：151

spark自定义分区器实现

在spark中，框架默认使用的事hashPartitioner分区器进行对rdd分区，但是实际生产中，往往使用spark自带的分区器会产生数据倾斜等原因，这个时候就需要我们自定义分区，按照我们指定的字段进行分区。具体的流程步骤如下： 1、创建一个自定义的分区类，并继承Partitioner，注意这个 ...

分类：其他好文时间：2019-06-23 17:30:57 阅读次数：138

Spark Core应用解析

一。RDD概念 1.1。RDD概述 1.1.1。什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有R ...

分类：其他好文时间：2019-06-22 10:20:18 阅读次数：85

RDD的checkpoint机制

checkpoint原理机制当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint机制，那么就需要找到父RDD重新计算数据了，因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha ...

分类：其他好文时间：2019-06-21 09:15:01 阅读次数：115

零基础如何学好大数据？必备需要学习知识

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术：Java编程技术Java编程技术是大数据学习的基础，Java是一种强类型语言，拥有极高的跨平台能力，可以编写桌

分类：其他好文时间：2019-06-18 14:00:57 阅读次数：109

spark内存管理器--MemoryManager源码解析

MemoryManager内存管理器内存管理器可以说是spark内核中最重要的基础模块之一，shuffle时的排序，rdd缓存，展开内存，广播变量，Task运行结果的存储等等，凡是需要使用内存的地方都需要向内存管理器定额申请。我认为内存管理器的主要作用是为了尽可能减小内存溢出的同时提高内存利用率。 ...

分类：其他好文时间：2019-06-13 09:17:47 阅读次数：111

大数据基础教程：创建RDD的二种方式

大数据基础教程：创建RDD的二种方式 1.从集合中创建RDD val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) //这两个方法都有第二参数是一个默认值2 分 ...

分类：其他好文时间：2019-06-12 16:37:50 阅读次数：99

Spark学习之路（八）SparkCore的调优之开发调优

讨论QQ：1586558083 目录调优概述原则一：避免创建重复的RDD 一个简单的例子原则二：尽可能复用同一个RDD 一个简单的例子原则三：对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例 Spark的持久化级别如何选择一种最合适的持久化策略原则四：尽量避免使用sh ...

分类：其他好文时间：2019-06-11 13:27:47 阅读次数：155

Spark学习之路（十七）Spark分区

讨论QQ：1586558083 目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法 3.1　本地模式 3.2　YARN模式四、分区器正文回到顶部一、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式 ...

分类：其他好文时间：2019-06-11 13:21:29 阅读次数：119

共1327条上一页 1 ... 32 33 34 35 36 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)