搜索关键字：spark rdd，搜索到7287个结果！码迷,mamicode.com！

Spark RDD Action操作

reducedef reduce(f: (T, T) => T): T通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的1234567891011scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.R... ...

分类：其他好文时间：2019-10-02 22:40:13 阅读次数：175

spark教程(一)-入门与安装

spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎，专门为大规模数据处理而设计，与 mapreduce 类似，不同的是，mapreduce 把中间结果写入 hdfs，而 spark 直接写入内存，这使得它能够实现实时计算。 spark 由 scala 语言开发， ...

分类：其他好文时间：2019-10-02 12:51:02 阅读次数：1950

4. Spark Streaming解析

4.1 初始化StreamingContext 初始化完Context之后： 1) 定义消息输入源来创建DStreams 2) 定义DStreams的转化操作和输出操作 3) 通过streamingContext.start()来启动消息采集和处理 4) 等待程序终止，可以通过streamingCo ...

分类：其他好文时间：2019-10-02 10:33:16 阅读次数：82

Spark(三): 安装与配置

参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录： Spark集群安装参数配置测试验证 Spark集群安装：在ambari ...

分类：其他好文时间：2019-10-02 01:00:23 阅读次数：123

HDP2.4安装(五)：集群及组件安装

HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心，包含pig、hive、phoniex、hbase、storm、spark等大量组件，在最新的2.4版本，监控UI实现与grafana集成,包含组件版本 ...

分类：其他好文时间：2019-10-02 00:52:57 阅读次数：138

Spark(二): 内存管理

Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1 ...

分类：其他好文时间：2019-10-02 00:35:40 阅读次数：122

Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统 ...

分类：其他好文时间：2019-10-02 00:18:24 阅读次数：145

Spark两种提交方式Yarn-client and Yarn-cluster

Spark支持三种集群部署方式(Standalone,Mesos,Yarn),其中Master服务(Spark Standalone,Mesos Master,Yarn ResourceManager)决定哪些应用可以运行，在那个节点上运行，以及什么时候运行。Slave服务（Yarn NodeMan... ...

分类：其他好文时间：2019-10-01 13:36:44 阅读次数：84

Spark RDD常用算子操作（八）键值对关联操作 subtractByKey, join,fullOuterJoin, rightOuterJoin, leftOuterJoin

原文作者：翟开顺首发：CSDN本人仅为自己方便查阅做了摘抄，请支持原作者原文地址：https://blog.csdn.net/t1dmzks/article/details/72077428github: https://github.com/zhaikaishun/spark_tutorial/t... ...

分类：其他好文时间：2019-10-01 13:35:26 阅读次数：125

sparksql报错

执行时报错： org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class `cn.itcast.spark.sql.Intro$Person` without access to the ...

分类：数据库时间：2019-09-30 23:57:00 阅读次数：194

共7287条上一页 1 ... 101 102 103 104 105 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)