前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 ...
分类:
其他好文 时间:
2020-05-19 22:46:55
阅读次数:
50
1. UDF 2.UDAF 3.UDTF hive是一个计算引擎. mapreduce 慢,吞吐量达. hive有点像一个hadoop的客户端,他不是分布式的. ...
分类:
其他好文 时间:
2020-05-19 10:43:18
阅读次数:
40
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
朱雀的部分题目 : https://github.com/peri0d/wangding_zhuque 九宫格 附件给了一堆图片,扫描之后得到的结果都是zero或者one,写个脚本获取识别之后的二进制串,然后每8位可以读取为一个ascii字符 这个脚本运行的有点慢,快的脚本等大师傅们都发了再发 =. ...
分类:
其他好文 时间:
2020-05-18 15:54:14
阅读次数:
327
HIVE分区,桶,倾斜概念 ref:https://edu.hellobi.com/course/93/play/lesson/2037 静态分区: 按日期来分区 动态分区: 商品二级类目分区(图书、数码等),是不确定的 set hive.exec.dynamic.partition 查看设置tru ...
分类:
其他好文 时间:
2020-05-17 17:42:14
阅读次数:
76
hive安装包conf/hive-site.xml 增加如下配置: <property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the col ...
分类:
其他好文 时间:
2020-05-17 16:17:36
阅读次数:
97
hive是如何将HQL转换成MapReduce程序的呢,通过对hive架构的学习,您将全面了解hive的工作流程以及数据处理过程
分类:
其他好文 时间:
2020-05-17 09:15:54
阅读次数:
85
原因: 1.防火墙没关闭(对应端口没有打开) 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题 解决方案: 1.关闭防火墙 2.jps查看进程,出现下面几个进程则启动成功。 hdfs三个进程中,datanode和namenode只有一个启动成功,可能是namenode ...
分类:
编程语言 时间:
2020-05-15 13:11:20
阅读次数:
271
启动hive之后执行查询语句报错如下: 分析得知:hive的数据库MySQL在安装的时候没有初始化 解决办法:初始化数据库 schematool dbType mysql initSchema 出现下面这个界面则表示初始化成功 验证: 原文链接:https://blog.csdn.net/weixi ...
分类:
编程语言 时间:
2020-05-15 09:42:18
阅读次数:
74
换了几个开发环境,每次都会遇到sparksql连不上元数据的情况,整理一下脱坑吧。。。。。 进入主题: 首先说一下几个文件吧,这些是我遇到的几个问题的解决方法,有可能你并不适用,仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...
分类:
数据库 时间:
2020-05-14 11:27:02
阅读次数:
101