搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark SQL

sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优 ...

分类：数据库时间：2018-07-26 15:12:40 阅读次数：216

Spark学习（二）——RDD的设计与运行原理

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for ...

分类：其他好文时间：2018-07-25 22:44:51 阅读次数：237

策略模式

背景介绍：/**策略设计模式的原理解释： duck 类（固定不变有叫与显示的方法）作为基类是变化很少的封装出来而可变的就以组合的方式（注入接口）然后通过多态的实现来完成。这样以后还需要增加不同类型的鸭子以及不同的飞行就不需要改变原有duck的代码以及之前写好的代码*/public abstra... ...

分类：其他好文时间：2018-07-24 20:25:27 阅读次数：206

Spark核心RDD：combineByKey函数详解

https://blog.csdn.net/jiangpeng59/article/details/52538254 为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,re ...

分类：其他好文时间：2018-07-23 15:54:52 阅读次数：117

Spark数据读取

用惯了python或者R语言的DataFrame格式，对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件读取本地文件之后，一般都是转换成Row类型RDD，方便后续操作；同时RDD转成DataFrame前， ...

分类：其他好文时间：2018-07-20 20:10:29 阅读次数：210

Spark DataFrame vector 类型存储到Hive表

1. 软件版本 2. 场景描述在使用Spark时，有时需要存储DataFrame数据到Hive表中，一般的存储方式如下：在DataFrame中存储一般的数据类型，比如Double、Float、String等到Hive表是没有问题的，但是在DataFrame中还有一个数据类型：vector ，如 ...

分类：其他好文时间：2018-07-18 21:47:24 阅读次数：427

Spark源码剖析——SparkContext的初始化(六)_创建和启动DAGScheduler

6.创建和启动DAGScheduler DAGScheduler主要用于在任务正式交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建Job，将DAG中的RDD划分到不同的Stage，提交Stage，等等。创建DAGScheduler的代码如下： DAGScheduler的数据结 ...

分类：其他好文时间：2018-07-15 23:21:58 阅读次数：193

Spark新手入门——3.Spark集群(standalone模式)安装

主要包括以下三部分，本文为第三部分：一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装查看三. Spark集群(standalone模式)安装 Spark集群(standalone模式)安装若使用spark对本地文件进行测试学习，可以不用安装上面的hadoop环境，若要结合 ...

分类：其他好文时间：2018-07-15 21:23:54 阅读次数：169

Spark_RDD之简单Java函数接口

函数名实现的方法用途 Function R call(T) 接收一个输入值并返回一个输出值，用于类似 map() 和filter() 等操作中 Function2 R call(T1, T2) 接收两个输入值并返回一个输出值，用于类似 aggregate()和 fold() 等操作中 FlatM... ...

分类：编程语言时间：2018-07-11 22:55:11 阅读次数：213

spark dataframe 将null 改为 nan

由于我要叠加rdd某列的数据，如果加数中出现nan，结果也需要是nan，nan可以做到，但我要处理的数据源中的nan是以null的形式出现的，null不能叠加，而且我也不能删掉含null的行，于是我用了sparksql 的 ISNULL和CASE WHEN方法： Case When 方法：如果ob ...

分类：其他好文时间：2018-07-09 19:15:05 阅读次数：484

共1327条上一页 1 ... 51 52 53 54 55 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)