一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:
其他好文 时间:
2020-08-13 12:07:11
阅读次数:
88
一、Hadoop集群安装 1. 环境准备 (1) 准备三台机器:hadoop0(192.168.11.10)、hadoop1(192.168.11.11)、hadoop2(192.168.11.12) (2)每台机器安装好JAVA环境以及SSH打通(SSH免密登录;关闭防火墙) 2. 下载Hadoo ...
分类:
其他好文 时间:
2020-08-11 10:44:56
阅读次数:
79
视频学习: https://www.bilibili.com/video/BV1z441127qT?p=1 一、应用现状 一、项目结构 二、安装和使用 安装教程:https://www.bilibili.com/video/BV1z441127qT?p=5 ...
分类:
其他好文 时间:
2020-08-10 23:16:57
阅读次数:
82
impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 ...
分类:
其他好文 时间:
2020-08-10 18:38:19
阅读次数:
242
今日内容:1) hive的自定义函数 (简单会实现即可)2) hive优化部分: 能够理解, 知道有这些优化方案 , 记录 2.1: hive的数据压缩 2.2: hive的数据存储格式 2.3: fetch抓取 2.4: 本地模式 2.5: join的优化 2.6: SQL优化的方案 2.7: 动 ...
分类:
其他好文 时间:
2020-08-10 09:24:13
阅读次数:
57
JDK下载与配置 Hadoop下载,安装与部署 由于Hadoop是由java编程而写,所有运行环境需要java支持,Hadoop需java1.6及以上支持。 1.JDK 下载与配置 查看当前系统jdk,chuxianOpen JDK 需要卸载 rpm -qa | grep jdk rpm -e -- ...
分类:
其他好文 时间:
2020-08-08 17:41:47
阅读次数:
71
Kettle巧用公式轻松实现数据抽取(图文并茂,带案例讲解)
分类:
其他好文 时间:
2020-08-08 00:40:05
阅读次数:
93
1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B ...
分类:
其他好文 时间:
2020-08-08 00:33:32
阅读次数:
73
一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
分类:
其他好文 时间:
2020-08-07 18:03:42
阅读次数:
62