在hive内部有许多函数,如下: 内置运算符 关系运算符 算术运算符 逻辑运算符 复杂类型函数 内置函数内置聚合函数 数学函数 收集函数 类型转换函数 日期函数 条件函数 字符函数 内置聚合函数 内置表生成函数 1.1关系运算符 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <> ...
分类:
其他好文 时间:
2020-09-10 22:38:54
阅读次数:
41
写在前面 首先我们来看看需求,以下是某博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(好友关系是单向的): A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A, ...
分类:
其他好文 时间:
2020-09-10 22:33:47
阅读次数:
36
1.hive本身对union这样的命令进行了优化 2.hdfs数据本地化率对hive性能产生影响 在数据大小一定的情况下,500个128M的文件和2个30G的文件 跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。 3.不同数据 ...
分类:
其他好文 时间:
2020-09-09 19:07:41
阅读次数:
34
体验平台简介面向开发者和中小企业打造的一站式、全云端的开发平台,打开浏览器就可以开发、调试、上线,所测即所得,并结合无服务器的模式,重新定义云原生时代的研发工作方法论。旨在降低开发者上手成本和中小企业的启动成本、运营成本、以及突发流量带来的运维风险。教程介绍本教程介绍如何在Linux实例上快速搭建一个Hadoop伪分布式环境。场景体验场景内容选自阿里云体验实验室阿里云体验实验室提供一台配置了Cen
分类:
其他好文 时间:
2020-09-08 21:06:59
阅读次数:
61
HDFS概述 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常 适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存 储文件, 并且提供统一的访问接 ...
分类:
其他好文 时间:
2020-09-08 20:40:45
阅读次数:
34
SpringCloudFlow与ApacheSpark集成点击左上角,关注:“锅外的大佬”专注分享国外最新技术内容帮助每位开发者更优秀地成长1.简介SpringCloudDataFlow是用于构建数据集成和实时数据处理管道的工具包。在这种情况下,管道(Pipelines)是使用SpringCloudStream或SpringCloudTask框架构建的SpringBoot应用程序。在本教程中,我们
分类:
编程语言 时间:
2020-09-07 19:17:49
阅读次数:
55
一.环境介绍1.centos7.6vmware虚拟机主节点190.168.3.250slave190.168.3.251slave190.168.3.2522.每个节点配置好hosts解析3.下载好软件https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.htmlhadoop-3.
分类:
其他好文 时间:
2020-09-07 19:16:59
阅读次数:
68
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解
分类:
其他好文 时间:
2020-09-04 16:58:58
阅读次数:
42
1 Sqoop概述 传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。 当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器 ...
分类:
其他好文 时间:
2020-09-03 16:44:55
阅读次数:
40
Block是文件块,HDFS中是以Block为单位进行文件的管理的,一个文件可能有多个块,每个块默认是3个副本,这些块分别存储在不同机器上。块与文件之前的映射关系会定时上报Namenode。HDFS中一个块的默认大小是64M,其大小由参数dfs.block.size控制。这里面先引申几个问题出来: ...
分类:
其他好文 时间:
2020-09-03 16:43:21
阅读次数:
40