码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
Spark之RDD编程
Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset),简称RDD。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后,Spark会自动将RDD中的数据分发到集群 ...
分类:其他好文   时间:2020-05-30 22:18:13    阅读次数:105
spark基础入门
第1章 Spark 概述 1.1 什么是 Spark 官网:http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化 ...
分类:其他好文   时间:2020-05-30 22:09:09    阅读次数:75
Spark Structured Streaming
###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 基于 Spark SQL engine 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 Spark SQL engine 持续地、增量地处理流数据 支持 stre ...
分类:其他好文   时间:2020-05-29 21:22:01    阅读次数:77
Spark分区
一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, ...
分类:其他好文   时间:2020-05-29 20:55:31    阅读次数:55
spark企业运用
Spark SQL 1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点: (1)和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候 ...
分类:其他好文   时间:2020-05-29 19:38:34    阅读次数:75
Spark Streaming企业运用
Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark ...
分类:其他好文   时间:2020-05-29 19:33:56    阅读次数:53
spark源码解析总结
Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间 ...
分类:其他好文   时间:2020-05-29 19:20:02    阅读次数:70
Spark GraphX企业运用
Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可 ...
分类:其他好文   时间:2020-05-29 19:11:36    阅读次数:58
Spark RDD编程 双Value类型交互
所谓双Value,就是两个数据集RDD之间进行操作。 1 union(otherDataset):对源RDD和参数RDD合并后返回一个新的RDD,不会去重 val listRDD1: RDD[Int] = sc.makeRDD(1 to 5) val listRDD2: RDD[Int] = sc. ...
分类:其他好文   时间:2020-05-28 23:28:27    阅读次数:71
spark安装
地址 官网地址: http://spark.apache.org/ 文档查看地址: https://spark.apache.org/docs/2.1.1/ 下载地址: https://spark.apache.org/downloads.html 集群规划 首先我们要确认我们的Linux主机是否安 ...
分类:其他好文   时间:2020-05-28 23:25:13    阅读次数:70
7001条   上一页 1 ... 29 30 31 32 33 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!