码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark学习之路 (十一)SparkCore的调优之Spark内存模型
讨论QQ:1586558083 目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD 缓存的过程 4.3 淘汰和落盘 五、 执行内 ...
分类:其他好文   时间:2019-06-11 12:41:51    阅读次数:103
Spark学习之路 (十八)SparkSQL简单使用
讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3. ...
分类:数据库   时间:2019-06-11 12:41:29    阅读次数:145
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD、DataFrame 与 DataSet0.3.2 DataSet 与 R ...
分类:数据库   时间:2019-06-08 11:48:58    阅读次数:143
Spark 学习(四)RDD自定义分区和缓存
一,简介 二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现 三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式 正文 一,简介 在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说, ...
分类:其他好文   时间:2019-06-07 21:22:15    阅读次数:111
Spark之RDD弹性特性
RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。 1.自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据。如果实际数据大于内存,则要考虑数据放置策略和优化算法。当应用程序内存不足时,S ...
分类:其他好文   时间:2019-06-04 20:56:29    阅读次数:142
Spark RDD转换成DataFrame的两种方式
RDD转变为DataFrame的两种方法
分类:其他好文   时间:2019-05-30 13:20:15    阅读次数:294
大数据技术扫盲,你必须会的这些点
虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。**今天小编给大家带来的是绝对的干货!以下是我自己这些年爬过的那些坑。在大数据开发这一块来说还算是比较全面的吧!废话不多说,直接上干货!1、Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型
分类:其他好文   时间:2019-05-27 11:47:32    阅读次数:118
Spark直接读入fastq格式的数据
输入文件: fastq格式 输出结果: kmer的频数和对应的kmer类型 系统环境Ubuntu单机版17.01 spark版本2.7 此次测试主要用到了RDD的函数foreach和zipWithIndex,zipWithIndex这个函数是可以直接对gz文件进行操作的 python的主要通过lam... ...
分类:其他好文   时间:2019-05-24 14:34:03    阅读次数:121
Spark SQL 报错总结
解决SparkSQL部分报错 一、Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver. 二、Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://192.168.1.201:3306/hiveDB?createDatabaseIfNotExist=true
分类:数据库   时间:2019-05-21 22:40:25    阅读次数:1664
Spark 调优之RDD持久化级别及kryo序列化性能测试
RDD的持久化是spark优化中必须掌握的,并且,在内存不足的情况下,我们可以将持久化类型选择为MEMORY_ONLY_SER,减少内存的占用,持久化更多的partition,并且不同的序列化方法也会影响序列化性能。 下面,我们就来测试下,持久化级别和序列化方法的选择对RDD持久化大小的影响。
分类:其他好文   时间:2019-05-19 20:38:16    阅读次数:188
1327条   上一页 1 ... 33 34 35 36 37 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!