搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark学习之路（十一）SparkCore的调优之Spark内存模型

讨论QQ：1586558083 目录一、概述二、堆内和堆外内存规划 2.1　堆内内存 2.2　堆外内存 2.3　内存管理接口三、内存空间分配 3.1　静态内存管理 3.2　统一内存管理四、存储内存管理 4.1　RDD 的持久化机制 4.2　RDD 缓存的过程 4.3　淘汰和落盘五、执行内 ...

分类：其他好文时间：2019-06-11 12:41:51 阅读次数：103

Spark学习之路（十八）SparkSQL简单使用

讨论QQ：1586558083 目录一、SparkSQL的进化之路二、认识SparkSQL 2.1　什么是SparkSQL? 2.2　SparkSQL的作用 2.3　运行原理 2.4　特点 2.5　SparkSession 2.7　DataFrames 三、RDD转换成为DataFrame 3. ...

分类：数据库时间：2019-06-11 12:41:29 阅读次数：145

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD、DataFrame 与 DataSet0.3.2 DataSet 与 R ...

分类：数据库时间：2019-06-08 11:48:58 阅读次数：143

Spark 学习（四）RDD自定义分区和缓存

一，简介二，自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现三，RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式正文一，简介在之前的文章中，我们知道RDD的有一个特征：就是一组分片（Partition），即数据集的基本组成单位。对于RDD来说， ...

分类：其他好文时间：2019-06-07 21:22:15 阅读次数：111

Spark之RDD弹性特性

RDD作为弹性分布式数据集，它的弹性具体体现在以下七个方面。 1．自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中，如果内存实在放不下，会放到磁盘里面，不但能计算内存放下的数据，也能计算内存放不下的数据。如果实际数据大于内存，则要考虑数据放置策略和优化算法。当应用程序内存不足时，S ...

分类：其他好文时间：2019-06-04 20:56:29 阅读次数：142

Spark RDD转换成DataFrame的两种方式

RDD转变为DataFrame的两种方法

分类：其他好文时间：2019-05-30 13:20:15 阅读次数：294

大数据技术扫盲，你必须会的这些点

虽说人生没有白走的路，新的一年来到，会的还是原来的知识，人的身价就摆在那里，无论怎么折腾，也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识，寻找自身的不足，查漏补缺非常重要。**今天小编给大家带来的是绝对的干货！以下是我自己这些年爬过的那些坑。在大数据开发这一块来说还算是比较全面的吧！废话不多说，直接上干货！1、Java编程技术Java编程技术是大数据学习的基础，Java是一种强类型

分类：其他好文时间：2019-05-27 11:47:32 阅读次数：118

Spark直接读入fastq格式的数据

输入文件： fastq格式输出结果： kmer的频数和对应的kmer类型系统环境Ubuntu单机版17.01 spark版本2.7 此次测试主要用到了RDD的函数foreach和zipWithIndex，zipWithIndex这个函数是可以直接对gz文件进行操作的 python的主要通过lam... ...

分类：其他好文时间：2019-05-24 14:34:03 阅读次数：121

Spark SQL 报错总结

解决SparkSQL部分报错一、Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver. 二、Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://192.168.1.201:3306/hiveDB?createDatabaseIfNotExist=true

分类：数据库时间：2019-05-21 22:40:25 阅读次数：1664

Spark 调优之RDD持久化级别及kryo序列化性能测试

RDD的持久化是spark优化中必须掌握的，并且，在内存不足的情况下，我们可以将持久化类型选择为MEMORY_ONLY_SER，减少内存的占用，持久化更多的partition，并且不同的序列化方法也会影响序列化性能。下面，我们就来测试下，持久化级别和序列化方法的选择对RDD持久化大小的影响。

分类：其他好文时间：2019-05-19 20:38:16 阅读次数：188

共1327条上一页 1 ... 33 34 35 36 37 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)