前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 ...
分类:
其他好文 时间:
2020-05-19 22:46:55
阅读次数:
50
网上看到的关于Executor,Cores和Memory的分配相关博客,先记录下来,再汇总。 <1>第一篇 Spark处理多少数据是否需要多少内存 Spark处理1Tb数据不需要1Tb的内存。 具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs ...
分类:
其他好文 时间:
2020-05-19 16:47:03
阅读次数:
82
通用监控指标 对于每个RPC服务应该监控 RpcProcessingTimeAvgTime(PRC处理的平均时间) 通常hdfs在异常任务突发大量访问时,这个参数会突然变得很大,导致其他用户访问hdfs时,会感觉到卡顿,从而影响任务的执行时间 CallQueueLength(RPC Call队列的长 ...
分类:
其他好文 时间:
2020-05-18 20:44:08
阅读次数:
170
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
配置本地hadoop开发环境
配置在Eclipse环境中管理hdfs目录 ...
分类:
其他好文 时间:
2020-05-15 14:07:05
阅读次数:
81
原因: 1.防火墙没关闭(对应端口没有打开) 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题 解决方案: 1.关闭防火墙 2.jps查看进程,出现下面几个进程则启动成功。 hdfs三个进程中,datanode和namenode只有一个启动成功,可能是namenode ...
分类:
编程语言 时间:
2020-05-15 13:11:20
阅读次数:
271
问题发现: 经巡检,服务器中一台节点的hadoop磁盘占用过多,是其它节点的三倍,导致数据严重不均衡。 解决过程: 两种命令: hadoop的bin目录下,运行命令start-balancer.sh -threshold 5 hdfs balancer -threshold 5 两者的执行效果是一样 ...
分类:
其他好文 时间:
2020-05-15 00:40:42
阅读次数:
149
在Linux文件系统中,我们可以使用下面shell脚本判断某个文件是否存在: # 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!" fi 但是我们想判断hdfs上某个文件是否存在咋办呢?Hadoop内置提供了判断某个文件是否存在的命 ...
分类:
系统相关 时间:
2020-05-14 11:33:50
阅读次数:
70
MySQL 8.0 InnoDB Architecture Percona XtraDB Internals ...
分类:
数据库 时间:
2020-05-13 20:02:43
阅读次数:
71
人们对软件架构存在非常多的误解,其中一个最为普遍的误解就是:将架构(Architecture)和框架(Framework)混为一谈。其实很简单,一句话:框架是软件,架构不是软件。框架落脚在“架”字上,可以理解成名词性的,是一个客观性的名词存在,如.Net Framework;而架构体现在“构”字上, ...
分类:
其他好文 时间:
2020-05-13 15:21:33
阅读次数:
56