码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark SQL
sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 ...
分类:数据库   时间:2018-07-26 15:12:40    阅读次数:216
Spark学习(二)——RDD的设计与运行原理
Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for ...
分类:其他好文   时间:2018-07-25 22:44:51    阅读次数:237
策略模式
背景介绍:/**策略设计模式的原理解释: duck 类(固定不变有叫与显示的方法)作为基类是变化很少的封装出来 而可变的就以组合的方式(注入接口) 然后通过多态的实现来完成。 这样以后还需要增加不同类型的鸭子以及不同的飞行就不需要改变原有duck的代码以及之前写好的代码*/public abstra... ...
分类:其他好文   时间:2018-07-24 20:25:27    阅读次数:206
Spark核心RDD:combineByKey函数详解
https://blog.csdn.net/jiangpeng59/article/details/52538254 为什么单独讲解combineByKey? 因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,re ...
分类:其他好文   时间:2018-07-23 15:54:52    阅读次数:117
Spark数据读取
用惯了python或者R语言的DataFrame格式,对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件 读取本地文件之后,一般都是转换成Row类型RDD,方便后续操作;同时RDD转成DataFrame前, ...
分类:其他好文   时间:2018-07-20 20:10:29    阅读次数:210
Spark DataFrame vector 类型存储到Hive表
1. 软件版本 2. 场景描述 在使用Spark时,有时需要存储DataFrame数据到Hive表中,一般的存储方式如下: 在DataFrame中存储一般的数据类型,比如Double、Float、String等到Hive表是没有问题的,但是在DataFrame中还有一个数据类型:vector , 如 ...
分类:其他好文   时间:2018-07-18 21:47:24    阅读次数:427
Spark源码剖析——SparkContext的初始化(六)_创建和启动DAGScheduler
6.创建和启动DAGScheduler DAGScheduler主要用于在任务正式交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建Job,将DAG中的RDD划分到不同的Stage,提交Stage,等等。创建DAGScheduler的代码如下: DAGScheduler的数据结 ...
分类:其他好文   时间:2018-07-15 23:21:58    阅读次数:193
Spark新手入门——3.Spark集群(standalone模式)安装
主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看二. Hadoop集群(伪分布模式)安装 查看三. Spark集群(standalone模式)安装 Spark集群(standalone模式)安装 若使用spark对本地文件进行测试学习,可以不用安装上面的hadoop环境,若要结合 ...
分类:其他好文   时间:2018-07-15 21:23:54    阅读次数:169
Spark_RDD之简单Java函数接口
函数名 实现的方法 用途 Function R call(T) 接收一个输入值并返回一个输出值,用于类似 map() 和filter() 等操作中 Function2 R call(T1, T2) 接收两个输入值并返回一个输出值,用于类似 aggregate()和 fold() 等操作中 FlatM... ...
分类:编程语言   时间:2018-07-11 22:55:11    阅读次数:213
spark dataframe 将null 改为 nan
由于我要叠加rdd某列的数据,如果加数中出现nan,结果也需要是nan,nan可以做到,但我要处理的数据源中的nan是以null的形式出现的,null不能叠加,而且我也不能删掉含null的行,于是我用了sparksql 的 ISNULL和CASE WHEN方法: Case When 方法: 如果ob ...
分类:其他好文   时间:2018-07-09 19:15:05    阅读次数:484
1327条   上一页 1 ... 51 52 53 54 55 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!