https://blog.csdn.net/wengyupeng/article/details/52808503 一、方法 2种方式: 二、例子 ...
分类:
其他好文 时间:
2019-06-25 15:10:02
阅读次数:
168
1.1 RDD为什么会产生? RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为 什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临 ...
分类:
其他好文 时间:
2019-06-25 09:46:32
阅读次数:
151
在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字段进行分区。具体的流程步骤如下: 1、创建一个自定义的分区类,并继承Partitioner,注意这个 ...
分类:
其他好文 时间:
2019-06-23 17:30:57
阅读次数:
138
一。RDD概念 1.1。RDD概述 1.1.1。什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有R ...
分类:
其他好文 时间:
2019-06-22 10:20:18
阅读次数:
85
checkpoint原理机制 当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的的容错机制。checkpoint就是对于一个RDDcha ...
分类:
其他好文 时间:
2019-06-21 09:15:01
阅读次数:
115
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌
分类:
其他好文 时间:
2019-06-18 14:00:57
阅读次数:
109
MemoryManager内存管理器 内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方都需要向内存管理器定额申请。我认为内存管理器的主要作用是为了尽可能减小内存溢出的同时提高内存利用率。 ...
分类:
其他好文 时间:
2019-06-13 09:17:47
阅读次数:
111
大数据基础教程:创建RDD的二种方式 1.从集合中创建RDD val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) //这两个方法都有第二参数是一个默认值2 分 ...
分类:
其他好文 时间:
2019-06-12 16:37:50
阅读次数:
99
讨论QQ:1586558083 目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用sh ...
分类:
其他好文 时间:
2019-06-11 13:27:47
阅读次数:
155
讨论QQ:1586558083 目录 一、分区的概念 二、为什么要进行分区 三、Spark分区原则及方法 3.1 本地模式 3.2 YARN模式 四、分区器 正文 回到顶部 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式 ...
分类:
其他好文 时间:
2019-06-11 13:21:29
阅读次数:
119