码迷,mamicode.com
首页 >  
搜索关键字:scala spark    ( 10387个结果
scala数据结构(一)
一、概述 1,特点 1)Scala同时支持不可变集合和可变集合 2)两个主要的包: 不可变集合:scala.collection.immutable 可变集合: scala.collection.mutable 3)Scala默认采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变(mu ...
分类:其他好文   时间:2020-07-02 21:42:47    阅读次数:69
解决 SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings
SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...
分类:其他好文   时间:2020-07-02 16:40:58    阅读次数:87
pandas、spark计算相关性系数速度对比
pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 ...
分类:其他好文   时间:2020-07-02 16:38:40    阅读次数:126
spark | 手把手教你用spark进行数据预处理
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:其他好文   时间:2020-07-02 13:20:51    阅读次数:67
Scala的File操作
Scala的File操作就是Java的File操作。 需要导入Java的File包 import java.io.File 删除目录文件及子目录 //删除文件及子目录 def del(dir : File): Unit = { if(dir.isDirectory) { val files = di ...
分类:其他好文   时间:2020-07-01 21:58:47    阅读次数:58
DataFrame DataSet Spark SQL学习
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:数据库   时间:2020-07-01 18:40:18    阅读次数:60
Zookeeper概述、环境搭建及基本API使用和相关应用场景
一.Zookeeper基本概念 分布式系统是同时跨越多个物理主机,独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式,让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种: 通过网络进行信息共享 通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...
分类:Windows程序   时间:2020-07-01 09:20:10    阅读次数:80
通过集合构建RDD或者DataFrame
利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...
分类:其他好文   时间:2020-06-30 14:51:17    阅读次数:59
MapReduce模型中数据关联使用or语句导致计算效率低下
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:其他好文   时间:2020-06-30 00:16:31    阅读次数:68
COMP9313 Lab1 SPARK pyspark 安装
遇到的问题: 1. SPARK & HADOOP 不能安装在有空格的目录下 比如 programs file这种 2. 需要设置环境变量 PYSPARK_PYTHON PYSPARK_DRIVER_PYTHON 到3.6.5的环境,不然3.6 3.7会撞车 ...
分类:其他好文   时间:2020-06-29 21:28:22    阅读次数:66
10387条   上一页 1 ... 33 34 35 36 37 ... 1039 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!