项目来源厦门大学林子雨老师得Spark学习项目中,里面为部分项目代码和实验截图 读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature ...
分类:
其他好文 时间:
2020-07-03 19:04:21
阅读次数:
89
存储越困难,提取越容易 HDFS客户端操作 开发环境准备 步骤一:编译对应HadoopJar包,配置Hadoop变量 步骤二:创建Maven工程,导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>juni ...
分类:
其他好文 时间:
2020-07-03 17:56:31
阅读次数:
59
准备4台虚拟机,安装好ol7.7,分配固定ip192.168.168.11 12 13 14,其中192.168.168.11作为master,其他3个作为slave,主节点也同时作为namenode的同时也是datanode,192.168.168.14作为datanode的同时也作为second... ...
分类:
其他好文 时间:
2020-07-03 12:23:28
阅读次数:
70
方式一: SavaAsTable 用法: df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二: InsertInto 用法: df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 ...
分类:
其他好文 时间:
2020-07-03 01:10:09
阅读次数:
152
Spark 源码解读(四)SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交,并请求集群管理器对任务的调度。创建TaskScheduler的代码如下: val (sched, ts) = SparkContext.createTa ...
分类:
其他好文 时间:
2020-07-03 00:59:56
阅读次数:
63
1、简要描述如何安装配置一个apache开源版hadoop,描述即可 (1)解压Hadoop (2)配置JDK,防火墙、Hadoop环境 (3)修改Hadoop配置 (4)格式化namenode,对数据缓存的的路径进行格式化 (5)启动Hadoop 2、请列出正常工作的hadoop集群中hadoop ...
分类:
其他好文 时间:
2020-07-03 00:53:22
阅读次数:
83
大数据开发的最后一环,将数仓中ADS层的数据,导出到MySql,剩下就是Java工程师的事了。 1 在MySql中创建对应的ADS表,字段和类型与数仓中的表一致,略。 2 数据导出脚本。 ①--update-mode updateonly:只更新,无法插入新数据。 allowinsert:允许新增 ...
分类:
数据库 时间:
2020-07-02 23:16:56
阅读次数:
81
SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...
分类:
其他好文 时间:
2020-07-02 16:40:58
阅读次数:
87
pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 ...
分类:
其他好文 时间:
2020-07-02 16:38:40
阅读次数:
126