搜索关键字：spark scala enumeration，搜索到10781个结果！码迷,mamicode.com！

JAVA用LDAP读取微软AD域里面的用户名组织架构等信息

package com.app.frame.ldap; import java.util.Enumeration;import java.util.Hashtable; import javax.naming.Context;import javax.naming.NamingEnumeration ...

分类：编程语言时间：2021-03-08 13:05:28 阅读次数：0

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

RDD算子调优不废话，直接进入正题！ 1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示：对上图中的RDD计算架构进行修改，得到如下图所示的优化结果： 2. 尽早filter 获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内 ...

分类：其他好文时间：2021-03-06 14:22:58 阅读次数：0

Spark Core 02（理论），独立的进程集

Application Application=a driver program + executors 一般来说：1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交，有gateway就行 1个application ==> ...

分类：系统相关时间：2021-03-04 13:20:14 阅读次数：0

Spark 运行时相关概念

Spark 运行时相关概念从集群的物理层面 Master 节点：部署 Cluster Manager的节点 Slave 节点：部署 Worker 的节点，每个节点可以有多个 Worker 进程从进程层面(与所执行的应用无关) Cluster Manager：管理集群的 CPU、内存等资源，为不同 ...

分类：其他好文时间：2021-03-03 12:14:39 阅读次数：0

大数据概述

1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS（Hadoop分布式文件系统）是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于 ...

分类：其他好文时间：2021-03-02 12:24:42 阅读次数：0

大数据概述

1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于 ...

分类：其他好文时间：2021-03-02 12:20:23 阅读次数：0

01 大数据概述

1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于 ...

分类：其他好文时间：2021-03-02 12:10:47 阅读次数：0

各种报错

1.return torch.embedding(weight, input, padding_idx, scale_grad_by_freq, sparse)RuntimeError: Expected tensor for argument #1 'indices' to have scalar ...

分类：其他好文时间：2021-03-01 13:14:12 阅读次数：0

[Spark] pyspark insertInto 去重插入数据表

pyspark有个bug, 虽然下面代码写了 write.mode("overwrite")但是不生效 spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("o ...

分类：其他好文时间：2021-02-23 14:14:20 阅读次数：0

Spark07-SparkSQL

在介绍 Spark SQL之前，我们先了解两种基本的数据分析方式。一、数据分析的两种方式数据分析的方式大致上可以划分为 SQL 和命令式两种。命令式在前面的 RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,可以得到一个结果,通过结果再进行后续计算。例如： sc.para ...

分类：数据库时间：2021-02-16 12:29:50 阅读次数：0