第一步 在pom.xml中添加 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </de ...
分类:
其他好文 时间:
2020-06-13 12:39:49
阅读次数:
172
本文始发于个人公众号:TechFlow,原创不易,求个关注 上次给大家推荐了免费的spark集群之后,就有很多小伙伴来问我有没有好的云GPU平台推荐。我一直没给大家推荐,主要原因是我常年使用Mac,对GPU配置了解不深,不过云GPU平台我倒是用过几个,今天就和大家来简单聊聊。 Colab 首先来介绍 ...
分类:
其他好文 时间:
2020-06-12 20:36:39
阅读次数:
165
5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://tang-spark/data/activity-data/") static.printSchema root |-- ...
分类:
其他好文 时间:
2020-06-12 12:48:53
阅读次数:
137
ApacheSpark是行业中流行和广泛使用的大数据工具之一。ApacheSpark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apacheflink。ApacheSpark简介ApacheSpark是为快速计算而设计的开源,闪电般快速的集群计算框架。ApacheSpark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。ApacheSpark的主要功能
分类:
Web程序 时间:
2020-06-12 09:14:25
阅读次数:
61
高级算子 mapPartitionWithIndex:对RDD中每个分区(有下标)进行操作,通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ? Iterator[U]) f 是函数参数,接收两个参数 Int:分区号 ...
分类:
数据库 时间:
2020-06-12 00:32:18
阅读次数:
96
Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。 Apache Spark简介 Apache Spark是为快速计算而设计的开源,闪电般快速的集群计算框架。Apache Spa ...
分类:
Web程序 时间:
2020-06-11 19:59:25
阅读次数:
79
本地scala version为2.11.8,spark为2.4.0版本 于是修改dr-elephant/build.sbt scalaVersion := "2.11.8" 修改dr-elephant/compile.conf hadoop_version=2.8.4 spark_version= ...
分类:
其他好文 时间:
2020-06-11 13:42:28
阅读次数:
100
(阿里云【名师课堂】Java面向对象开发40:引用传递实际应用) 回顾: 复习《阿里云【名师课堂】Java面向对象开发3 ~ 6:类与对象》中的引用传递初次分析部分,链接如下:https://www.cnblogs.com/playerone/p/13059971.html。 复习《阿里云【名师课堂 ...
分类:
编程语言 时间:
2020-06-11 00:29:51
阅读次数:
52
第0章-课程介绍 第1章-大数据技术概述 第2章-Scala语言基础 第3章-Spark的设计与运行原理 第4章-Spark环境搭建和使用方法 第5章-RDD编程 第6章-Spark-SQL 第7章-Spark-Streaming 第8章-Spark-MLlib ...
分类:
其他好文 时间:
2020-06-10 23:09:12
阅读次数:
145
亚马逊AWS官方博客 使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori ...
分类:
Web程序 时间:
2020-06-10 22:57:35
阅读次数:
109