一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:
其他好文 时间:
2020-06-30 00:16:31
阅读次数:
68
三范式理解 第一范式: 属性不可分割性 如: 学生表(姓名,年龄,性别,班级,宿舍号,家庭成员) 其中家庭成员为可分割的所以不符合第一范式 第二范式: 不存在组合关键字中的某些字段决定非关键字段的情况 如: (学号, 课程名称) → (姓名, 年龄, 成绩, 学分) 这个数据库表不满足第二范式,因为 ...
分类:
其他好文 时间:
2020-06-29 23:06:38
阅读次数:
102
Zookeeper集群搭建 安装环境: 系统:centos7.6 Java环境:JDK8 关闭这三台机器的防火墙,sellinux 主机188、189、190分别已经部署了单机的zk。单机安装请看我上一篇博客。 https://www.cnblogs.com/hsyw/p/13204017.html ...
分类:
其他好文 时间:
2020-06-29 16:56:06
阅读次数:
89
搭建过程 1、Elasticsearch集群搭建 2、Cerebro插件安装 tar -zxvf cerebro-0.9.1.tgz 解压cerebro压缩包 配置cerebro文件夹下 application.conf 配置集群的地址 ./cerebro -Dhttp.port=8080 启动ce ...
分类:
其他好文 时间:
2020-06-29 15:43:43
阅读次数:
237
大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数 ...
分类:
其他好文 时间:
2020-06-29 11:48:57
阅读次数:
47
总结:使用一致性hash-槽-节点方式,一旦增删节点,重新分配变动的槽来保证各节点负载均衡。 一个端口用来正常访问,1****端口用来同步集群状态。1s10次同步。 一、集群的作用 集群,即Redis Cluster,是Redis 3.0开始引入的分布式存储方案。 集群由多个节点(Node)组成,R ...
分类:
其他好文 时间:
2020-06-28 13:38:44
阅读次数:
57
Running LLAP as a YARN Service 因为 Apache Slider 已经不维护了,下面介绍 不使用 Slider 的 LLAP使用方式。 参考: https://blog.cloudera.com/apache-hive-llap-as-a-yarn-service/ 将 ...
分类:
其他好文 时间:
2020-06-28 12:39:20
阅读次数:
108
报错详情: 从报错信息来看: 一,java.lang.NoSuchMethodError 原因:1.系统找不到相关jar包 2.同一类型的 jar 包有不同版本存在,系统无法决定使用哪一个 二,com.google.common.base.Preconditions.checkArgument 根据 ...
分类:
编程语言 时间:
2020-06-28 09:53:44
阅读次数:
146
目录 Hive的下载 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 2、上传Hive安装包 3、解压安装包 4、修改配置文件 5、 一定要记得加入 MySQL 驱动包(mysql-connector-java-5.1.40-bin.jar)该 jar 包放置在 ...
分类:
其他好文 时间:
2020-06-28 09:40:00
阅读次数:
50