码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
6.spark core之键值对操作
键值对RDD(pairRDD)是spark中许多操作所需要的常见数据类型,通常用来进行聚合计算。本文内容主要包括:创建Pair RDD、Pair RDD转化操作(聚合、分组、连接、排序)、Pair RDD行动操作。
分类:其他好文   时间:2018-08-26 01:17:45    阅读次数:168
7.spark core之数据分区
spark一个最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布可以减少网络开销,极大地提升整体性能。spark core之数据分区主要包括:分区器、影响分区的算子操作、repartition和partitionby的区别、repartition和coalesce的区别、实例分析。
分类:其他好文   时间:2018-08-26 01:15:24    阅读次数:210
RDD认知
1.RDD又叫弹性分布式数据集 2.抽象 3.带泛型,支持多种数据类型 4.集合是可以进行分区 例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3) (4,5,6) (7,8,9)可以并行计算(这就是分布式计算) RDD5大特性 1.一个RDD有一系列的分区 2.对RDD ...
分类:其他好文   时间:2018-08-25 22:17:02    阅读次数:186
There Are Now 3 Apache Spark APIs. Here’s How to Choose the Right One
See Apache Spark 2.0 API Improvements: RDD, DataFrame, DataSet and SQL here. Apache Spark is evolving at a rapid pace, including changes and additions ...
分类:Windows程序   时间:2018-08-24 10:58:32    阅读次数:198
APACHE SPARK 2.0 API IMPROVEMENTS: RDD, DATAFRAME, DATASET AND SQL
What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If you are just getting started with Apache Spark, the 2.0 rele ...
分类:数据库   时间:2018-08-24 10:54:59    阅读次数:202
spark core之RDD编程
spark core之RDD编程包括:五大特性、创建RDD、RDD操作(转化操作、行动操作、缓存)、容错机制。
分类:其他好文   时间:2018-08-24 00:38:21    阅读次数:186
在使用Pipeline串联多个stage时model和非model的区别
train.csv数据: id,name,age,sex1,lyy,20,F2,rdd,20,M3,nyc,18,M4,mzy,10,M 数据读取: root |-- id: integer (nullable = true) |-- name: string (nullable = true) | ...
分类:其他好文   时间:2018-08-23 13:02:53    阅读次数:208
sparkSQL 简介
一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析 ...
分类:数据库   时间:2018-08-22 18:23:03    阅读次数:158
spark-宽依赖和窄依赖
一、窄依赖(Narrow Dependency,) 即一个RDD,对它的父RDD,只有简单的一对一的依赖关系。也就是说, RDD的每个partition ,仅仅依赖于父RDD中的一个partition,父 RDD和子RDD的partition之间的对应关系,是一对一的!这种情况下,是简单的RDD之间 ...
分类:其他好文   时间:2018-08-21 13:10:18    阅读次数:162
转-Spark编程指南
Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打 ...
分类:其他好文   时间:2018-08-19 13:55:40    阅读次数:209
1327条   上一页 1 ... 49 50 51 52 53 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!