package operationMysql import config.conf.{sc, spark_session} import org.apache.spark.sql.DataFrame object readingMysqlOperation { def main(args: Arra ...
分类:
数据库 时间:
2020-04-03 00:21:17
阅读次数:
126
1.版本选型 hadoop 3.1.3 hive 3.1.2 presto 0.233.1 2.Prsto 简介 详细参考:https://prestodb.github.io/docs/current/connector.html 2.1 Presto 优势 多数据源,支持SQL,自定义扩展Con ...
分类:
其他好文 时间:
2020-04-03 00:15:16
阅读次数:
177
1.环境hadoop-2.6.0 spak2.1.1 scala-sdk-2.11.12 2.maven项目创建 3.pom 4.阿里云settings配置 <?xml version="1.0"?> <settings xsi:schemaLocation="http://maven.apache ...
分类:
其他好文 时间:
2020-04-02 19:37:02
阅读次数:
213
1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:
其他好文 时间:
2020-04-02 18:08:23
阅读次数:
115
hbase报错 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing ...
分类:
Web程序 时间:
2020-04-02 17:59:54
阅读次数:
82
一:什么是SparkSQL? (一)SparkSQL简介 Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务,提交 ...
分类:
数据库 时间:
2020-04-02 15:36:01
阅读次数:
88
Hadoop有三种模式:本地模式、伪分布模式、集群模式 1、本地模式 1、在/opt下面创建一个software文件 2、将文件hadoop-2.6.5.tar.gz拷贝到 /opt/software下面 3、在usr下创建hadoop把hadoop-2.6.5.tar.gz 复制到 /usr/ha ...
分类:
其他好文 时间:
2020-04-02 11:42:47
阅读次数:
75
./bin/hdfs zkfc -formatZK 初始安装时初始化zk,在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态,是active还是standby ./bin/ ...
分类:
其他好文 时间:
2020-04-01 19:33:47
阅读次数:
55
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58
我使用了4台虚拟机centos7来搭建环境, 2个主结点(一般是一个,但为了体验zookeeper,万一其中一个master挂掉呢,另外一个会自动启动接管), 2个从结点 注意:下面的配置主要以主节点为例进行说明 第一步:同步四台机器的时钟 sudo yum install ntpdate,确保已安 ...
分类:
系统相关 时间:
2020-03-31 22:59:21
阅读次数:
97