执行报错如下: 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 20/07/ ...
分类:
数据库 时间:
2020-07-15 15:29:36
阅读次数:
88
server { listen 80; server_name www.test.com; rewrite ^(.*)$ https://${server_name}$1 permanent; } server { listen 443; server_name www.test.com; ssl ...
分类:
其他好文 时间:
2020-07-15 13:09:13
阅读次数:
68
这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 ...
分类:
其他好文 时间:
2020-07-14 13:10:45
阅读次数:
72
蚂蚁森林案例背景说明 原始数据样例 user_low_carbon.txt 记录用户每天的蚂蚁森林低碳生活领取的流水 数据样例 u_001 2017/1/1 10 u_001 2017/1/2 150 u_001 2017/1/2 110 plant_carbon.txt 记录申领环保植物所需要减少 ...
分类:
其他好文 时间:
2020-07-14 00:35:41
阅读次数:
817
一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m ...
分类:
其他好文 时间:
2020-07-13 21:24:30
阅读次数:
75
hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 ...
分类:
其他好文 时间:
2020-07-13 13:17:45
阅读次数:
65
Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能。 HIVE特点 1.使用类sql语句分析大数据,避免MapReduce程序分析数据 2.数据存储在HDFS上,不是HIVE上 3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。 元数据:描述数 ...
分类:
其他好文 时间:
2020-07-13 12:07:13
阅读次数:
73
CDH中hive报端口被占用,经排查并进行以下操作后恢复正常。 通过查看hive日志可用发现10000端口已经被占用,通过命令行可用查找出被占用端口的相应进程;将被占用端口的进程删掉(kill 187393)后,重启hive即恢复正常 ...
分类:
其他好文 时间:
2020-07-13 11:17:25
阅读次数:
62
CDH 运行一段时间就提示:请求 Service Monitor 超时。这可能会导致页面响应缓慢。请查看 Service Monitor 的状态。 此类问题,是由于相关monitor服务的jvm配置太小导致,随着cloudera的业务量加大,垃圾回收内容增多等原因导致过载,稳定性直接受影响甚至服务进 ...
分类:
其他好文 时间:
2020-07-13 11:16:38
阅读次数:
100
容器是一种清理级、可移植、自包含的软件打包技术,使应用程序可以在几乎任何地方以相同的方式运行。 ...
分类:
其他好文 时间:
2020-07-13 09:43:45
阅读次数:
68