通用监控指标 对于每个RPC服务应该监控 RpcProcessingTimeAvgTime(PRC处理的平均时间) 通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间 CallQueueLength(RPC Call队列的长 ...
分类:
其他好文 时间:
2020-05-18 20:44:08
阅读次数:
170
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
配置本地hadoop开发环境
配置在Eclipse环境中管理hdfs目录 ...
分类:
其他好文 时间:
2020-05-15 14:07:05
阅读次数:
81
原因: 1.防火墙没关闭(对应端口没有打开) 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题 解决方案: 1.关闭防火墙 2.jps查看进程,出现下面几个进程则启动成功。 hdfs三个进程中,datanode和namenode只有一个启动成功,可能是namenode ...
分类:
编程语言 时间:
2020-05-15 13:11:20
阅读次数:
271
问题发现: 经巡检,服务器中一台节点的hadoop磁盘占用过多,是其它节点的三倍,导致数据严重不均衡。 解决过程: 两种命令: hadoop的bin目录下,运行命令start-balancer.sh -threshold 5 hdfs balancer -threshold 5 两者的执行效果是一样 ...
分类:
其他好文 时间:
2020-05-15 00:40:42
阅读次数:
149
在Linux文件系统中,我们可以使用下面shell脚本判断某个文件是否存在: # 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!" fi 但是我们想判断hdfs上某个文件是否存在咋办呢?Hadoop内置提供了判断某个文件是否存在的命 ...
分类:
系统相关 时间:
2020-05-14 11:33:50
阅读次数:
70
1 部署HDFS HDFS的基本操作可以分为集群管理和文件系统操作两种类型: 集群管理:包括Namenodede 的格式化、集群的启动和停止、集群信息查看等。 文件系统:包括对目录、文件和权限等内容的操作。 HDFS中的命令主要在sbin和bin目录下[一般要进行环境变量的设置]: sbin:集群控 ...
分类:
其他好文 时间:
2020-05-12 09:17:05
阅读次数:
81
1 打包运行 项目部署 startalone模式 和 yarn模式 2 1:把local 本地运行删掉 输入输出路径改为args(0) args(1) 删除左边target文件 3 顶部 bulid->bulid project 然后右侧打包package 在target下拷贝jar包到桌面上 4 ...
分类:
其他好文 时间:
2020-05-11 15:06:35
阅读次数:
88
Hadoop概述: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。H ...
分类:
其他好文 时间:
2020-05-09 23:07:57
阅读次数:
222
1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...
分类:
数据库 时间:
2020-05-09 19:20:15
阅读次数:
100