码迷,mamicode.com
首页 >  
搜索关键字:一键部署 spark    ( 7234个结果
Spark RDD
RDD概述 RDD:弹性分布式数据集,初学时,可以把RDD看做是一种集合类型(和Array,List类比) RDD的特点: ①有容错性,即数据丢失是可以恢复的 ②有分区机制,可以并行的处理RDD数据 创建RDD的2种方式: ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 ...
分类:其他好文   时间:2020-07-05 15:15:06    阅读次数:66
Notebook Docker 安装spark环境
环境 Notebook docker环境 https://registry.hub.docker.com/r/jupyter/datascience-notebook/ 下载安装包 spark安装包 http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/ ...
分类:其他好文   时间:2020-07-04 18:29:02    阅读次数:83
Docker中提交任务到Spark集群
1. 背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。 接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...
分类:其他好文   时间:2020-07-03 19:06:43    阅读次数:62
基于pySpark得地震数据处理与分析
项目来源厦门大学林子雨老师得Spark学习项目中,里面为部分项目代码和实验截图 读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature ...
分类:其他好文   时间:2020-07-03 19:04:21    阅读次数:89
【赵强老师】什么是Spark SQL?
【赵强老师】什么是Spark SQL?
分类:数据库   时间:2020-07-03 10:46:43    阅读次数:73
Spark落地到hive表中的两种方式及其区别
方式一: SavaAsTable 用法: df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二: InsertInto 用法: df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 ...
分类:其他好文   时间:2020-07-03 01:10:09    阅读次数:152
Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler
Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交,并请求集群管理器对任务的调度。创建TaskScheduler的代码如下: val (sched, ts) = SparkContext.createTa ...
分类:其他好文   时间:2020-07-03 00:59:56    阅读次数:63
解决 SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings
SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...
分类:其他好文   时间:2020-07-02 16:40:58    阅读次数:87
pandas、spark计算相关性系数速度对比
pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 ...
分类:其他好文   时间:2020-07-02 16:38:40    阅读次数:126
spark | 手把手教你用spark进行数据预处理
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:其他好文   时间:2020-07-02 13:20:51    阅读次数:67
7234条   上一页 1 ... 23 24 25 26 27 ... 724 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!