搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

基于pySpark得地震数据处理与分析

项目来源厦门大学林子雨老师得Spark学习项目中，里面为部分项目代码和实验截图读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature ...

分类：其他好文时间：2020-07-03 19:04:21 阅读次数：89

【HDFS篇03】HDFS客户端操作 --- 开发环境准备

存储越困难，提取越容易 HDFS客户端操作开发环境准备步骤一：编译对应HadoopJar包，配置Hadoop变量步骤二：创建Maven工程，导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>juni ...

分类：其他好文时间：2020-07-03 17:56:31 阅读次数：59

ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境

准备4台虚拟机，安装好ol7.7，分配固定ip192.168.168.11 12 13 14，其中192.168.168.11作为master，其他3个作为slave，主节点也同时作为namenode的同时也是datanode，192.168.168.14作为datanode的同时也作为second... ...

分类：其他好文时间：2020-07-03 12:23:28 阅读次数：70

【赵强老师】什么是Spark SQL？

分类：数据库时间：2020-07-03 10:46:43 阅读次数：73

Spark落地到hive表中的两种方式及其区别

方式一： SavaAsTable 用法： df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二： InsertInto 用法： df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 ...

分类：其他好文时间：2020-07-03 01:10:09 阅读次数：152

Spark 源码解读（四）SparkContext的初始化之创建任务调度器TaskScheduler

Spark 源码解读（四）SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交，并请求集群管理器对任务的调度。创建TaskScheduler的代码如下： val (sched, ts) = SparkContext.createTa ...

分类：其他好文时间：2020-07-03 00:59:56 阅读次数：63

1、Hadoop常见问题

1、简要描述如何安装配置一个apache开源版hadoop，描述即可（1）解压Hadoop （2）配置JDK，防火墙、Hadoop环境（3）修改Hadoop配置（4）格式化namenode，对数据缓存的的路径进行格式化（5）启动Hadoop 2、请列出正常工作的hadoop集群中hadoop ...

分类：其他好文时间：2020-07-03 00:53:22 阅读次数：83

数据仓库数据可视化 Hive导出到MySql

大数据开发的最后一环，将数仓中ADS层的数据，导出到MySql，剩下就是Java工程师的事了。 1 在MySql中创建对应的ADS表，字段和类型与数仓中的表一致，略。 2 数据导出脚本。 ①--update-mode updateonly：只更新，无法插入新数据。 allowinsert：允许新增 ...

分类：数据库时间：2020-07-02 23:16:56 阅读次数：81

解决 SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings

SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...

分类：其他好文时间：2020-07-02 16:40:58 阅读次数：87

pandas、spark计算相关性系数速度对比

pandas、spark计算相关性系数速度对比相关性计算有三种算法：pearson、spearman，kenall。在pandas库中，对一个Dataframe，可以直接计算这三个算法的相关系数correlation，方法为：data.corr() 底层是依赖scipy库的算法。为了提升计算速 ...

分类：其他好文时间：2020-07-02 16:38:40 阅读次数：126

共26003条上一页 1 ... 69 70 71 72 73 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)