水平有限,本文仅以流水账的方式 介绍自己 安装 三款软件 的过程。 环境Ubuntu on 虚拟机: $ cat /proc/version Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \(U ...
分类:
其他好文 时间:
2020-07-13 13:14:44
阅读次数:
63
0 概述 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置ssh 9)群起并测试集群 1 虚拟机准备 1). 克隆虚拟机 2). 修改克隆虚拟机的静态IP 3). 修改主机名 4). ...
分类:
系统相关 时间:
2020-07-12 22:11:59
阅读次数:
88
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 出现这个问题的原因是我们在windows上模拟开发环境,但并没有真正的搭建hadoop和spark 解决办法: ...
1 Hadoop是什么 2 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。 Apache Hado ...
分类:
其他好文 时间:
2020-07-12 00:59:06
阅读次数:
92
从源头上解决,在上传到HDFS之前,就将多个小文件归档 使用tar命令 带上参数-zcvf 示例: tar -zcvf xxx.tar.gz 小文件列表 如果小文件已经上传到HDFS了,可以使用在线归档 使用hadoop archive命令 示例: hadoop archive -archiveNa ...
分类:
其他好文 时间:
2020-07-11 17:00:14
阅读次数:
76
Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写 ...
分类:
其他好文 时间:
2020-07-10 19:33:44
阅读次数:
77
cat hadoop-env.sh export HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08" cat yarn-env.sh YARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08" cat hbase-env ...
分类:
其他好文 时间:
2020-07-10 19:26:31
阅读次数:
86
前几天HBase出现了RIT告警,忽然发现发出告警的Region所属的表并不是我创建出来的,于是就想看看这些表是怎么来的。 一时也没什么头绪,就先看看这些表是什么时候创建出来的吧,然后再根据时间点看看有谁操作了数据库。 那么怎么看表的创建时间呢?desc看一下,也没有这个属性啊。再细想呢,hbase ...
分类:
其他好文 时间:
2020-07-10 15:14:17
阅读次数:
168
package com.sjw.flink import org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.sink.{RichSinkFunction, SinkF ...
分类:
其他好文 时间:
2020-07-10 00:43:32
阅读次数:
74
集群启动顺序: NameNode启动 NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程 ...
分类:
其他好文 时间:
2020-07-10 00:43:16
阅读次数:
97