###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF ...
分类:
其他好文 时间:
2020-06-30 20:22:42
阅读次数:
57
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:
其他好文 时间:
2020-06-30 00:16:31
阅读次数:
68
三范式理解 第一范式: 属性不可分割性 如: 学生表(姓名,年龄,性别,班级,宿舍号,家庭成员) 其中家庭成员为可分割的所以不符合第一范式 第二范式: 不存在组合关键字中的某些字段决定非关键字段的情况 如: (学号, 课程名称) → (姓名, 年龄, 成绩, 学分) 这个数据库表不满足第二范式,因为 ...
分类:
其他好文 时间:
2020-06-29 23:06:38
阅读次数:
102
大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数 ...
分类:
其他好文 时间:
2020-06-29 11:48:57
阅读次数:
47
1、导入Execl数据时提示错误,如下图 2、操作步骤 因无法确定.xls和.xlsx哪种格式系统支持,新建表格用了.xlsx格式,后发现系统找不到该格式,直接把文件名的后缀改成了.xls。 3、关键问题的原因还是excel版本的问题 解决办法 a. 判断文件后缀名是xls,还是xlsx;HSSFW ...
分类:
移动开发 时间:
2020-06-29 11:23:27
阅读次数:
192
Running LLAP as a YARN Service 因为 Apache Slider 已经不维护了,下面介绍 不使用 Slider 的 LLAP使用方式。 参考: https://blog.cloudera.com/apache-hive-llap-as-a-yarn-service/ 将 ...
分类:
其他好文 时间:
2020-06-28 12:39:20
阅读次数:
108
报错详情: 从报错信息来看: 一,java.lang.NoSuchMethodError 原因:1.系统找不到相关jar包 2.同一类型的 jar 包有不同版本存在,系统无法决定使用哪一个 二,com.google.common.base.Preconditions.checkArgument 根据 ...
分类:
编程语言 时间:
2020-06-28 09:53:44
阅读次数:
146
目录 Hive的下载 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 2、上传Hive安装包 3、解压安装包 4、修改配置文件 5、 一定要记得加入 MySQL 驱动包(mysql-connector-java-5.1.40-bin.jar)该 jar 包放置在 ...
分类:
其他好文 时间:
2020-06-28 09:40:00
阅读次数:
50
续接(三) 3 habse(1.2)集成hive(1.2.1) 》不兼容集成,需要自己编译!!! hive1.x与hbase0.98版本兼容 hive2.x与hbase1.x版本以上兼容 hive0.x与hbase0.98以下兼容 Hive提供了与HBase的集成,使得能够在HBase表上使用hiv ...
分类:
其他好文 时间:
2020-06-27 17:32:18
阅读次数:
54