1. ranger-hdfs plugin安装 1.1 安装ranger hdfs plugin软件包 # pwd /opt/app/ranger-release-ranger-1.2.0/target # tar -zxvf ranger-1.2.0-hdfs-plugin.tar.gz 1.2 ...
分类:
其他好文 时间:
2020-04-20 16:24:01
阅读次数:
169
JAVA的JVM的内存可分为3个区:堆(heap)、栈(stack)和方法区(method) 堆区:堆内存用于存放由new创建的对象和数组。 1.存储的全部是对象,每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)2.jvm只有一个堆区(heap)被所有线程共享,堆中不 ...
分类:
其他好文 时间:
2020-04-20 13:55:26
阅读次数:
58
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe ...
分类:
其他好文 时间:
2020-04-19 19:49:32
阅读次数:
86
小文件问题原因: ① 众所周知,小文件在HDFS中存储本身就会占用过多的内存空间,那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程,会占用JVM的空间。 ② 在Hive中,动态分区会造成在插入数据过程中,生成过多零碎的小文件。 ③ 不合理 ...
分类:
其他好文 时间:
2020-04-19 13:17:44
阅读次数:
89
前提补充 Q:为什么要三台服务器 A: 1.当数据量超过我们单台服务器的存储能力 2.当我们的运算量大于了单台服务器的运算量时(运算能力) 解决存储能力 Q:服务器间的管理,解决海量数据的存储 A:分布式文件系统HDFS 解决运算能力 Q:解决资源调度:教练让去打比赛 A:任务资源调度的集群YARN ...
分类:
其他好文 时间:
2020-04-19 12:28:14
阅读次数:
72
安装前准备: 首先,要有一个HDFS集群,并正常运行; regionserver应该跟hdfs中的datanode在一起 其次,还需要一个zookeeper集群,并正常运行 然后,安装HBASE 开始安装hbase集群 1.解压安装包 tar -zvxf hbase-1.2.1-bin.tar.gz ...
分类:
其他好文 时间:
2020-04-18 18:35:01
阅读次数:
74
如何对NameNode中数据持久化 FsImage:保存NameNode当前这一时刻数据状态 Editslog:日志文件,只记录client到hdfs写操作(二进制文件) Editslog和FsImage会定期合并,这项任务由SecondNameNode执行,当在合并的时候,客户端执行的写操作不再写 ...
分类:
其他好文 时间:
2020-04-18 12:14:46
阅读次数:
64
单节点NameNode存在问题: NameNode宕机,metadata数据消失; 单节点出现故障,如何进行故障转移? 如果增加一个NameNode节点,会出现脑裂问题(一个集群有多个管理者),如何解决? ZK搭建高可用(HA High Aliavble)HDFS集群 原理 QJM(Quorum J ...
分类:
其他好文 时间:
2020-04-17 20:34:00
阅读次数:
99
有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA ...
分类:
其他好文 时间:
2020-04-17 12:30:05
阅读次数:
70
目的:运行Atlas并使用Azkaban执行操作任务 环境:Centos 6 内存大小:12G 启动下面的任务后还剩内存将近5G 问题: 当mysql_to_hdfs_db和其他job同时运行时集群很容易就会报错 Cannot create GC thread. Out of system reso ...
分类:
其他好文 时间:
2020-04-16 22:28:47
阅读次数:
86