分区表 在Hive Select查询中,一般会扫描整个表内容(HDFS上文件的内容),会消耗很多时间做没必要的工作。分区表指的是在创建表时,指定partition的分区空间。 庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区或切片的方法减少每一次扫描总数据量,这种做法可以显著地改 ...
分类:
其他好文 时间:
2019-07-25 17:38:46
阅读次数:
92
CREATE TABLE A (X STRING); CREATE TABLE () 语句已经定义完成。数据库定义完成。进行直接解释 select找一张表的流程 表所在的库 >在库下找所在的表 HIVE CREATE TABLE A (wangxiaojia int); MYSQL INERT IN ...
分类:
其他好文 时间:
2019-07-25 17:28:56
阅读次数:
101
通常说的大数据平台主要包括三部分: 数据相关的工具、产品和技术: – 批量数据采集传输sqoop,spark – 离线数据处理Hadoop,Hive,Spark – 实时流处理Storm,Spark Streaming,Flink ? 数据资产: – 公司业务本身产生和沉淀的数据 – 公司运作产生的 ...
分类:
其他好文 时间:
2019-07-25 00:46:13
阅读次数:
176
1、下载路径:https://maven.apache.org/download.cgi 要想查看历史版本:则点击archives。 点击binaries 就可以下载对象的maven。 Binary tar.gz archive:mac或liunx安装包 Binary zip archive:win ...
分类:
系统相关 时间:
2019-07-24 19:35:06
阅读次数:
126
hadoop hive 高级查询 select基础 1.0 一般查询 1)select * from table_name 2)select * from table_name where name='....' limit 1; 1.1cte和嵌套查询 1)with t as(select.... ...
分类:
其他好文 时间:
2019-07-24 00:31:47
阅读次数:
107
hadoop hive 高级查询 Hive聚合运算 - Group by (基本内置聚合函数)nmax, min, count, sum, avg 1)Hive基本内置聚合函数与group by 一起使用 2)支持按位置编号分组 set hive.groupby.orderby.position.a ...
分类:
其他好文 时间:
2019-07-24 00:30:35
阅读次数:
287
有一段时间没有关注cube.js 了,刚好晚上收到一封来自官方的更新介绍,这里简单说明下 更多的数据驱动支持 bigquey, clickhouse snowflake,presto (很棒),hive,oracle 支持的完整列表在docs 开发这的playground 有了很多的提升,可以查看查 ...
分类:
Web程序 时间:
2019-07-24 00:27:42
阅读次数:
149
hadoop hive 1)2007年hive出世, 2)2014hive0.13.0是非常的流行(先对来说比较稳定) 3)2015hive1.2.0(相对来说只不过是升级) 4)2016hive2.1.0(更新了很多的功能) 1.1hive元数据管理 1)通过hive对元数据进行建模加工,变成表的 ...
分类:
其他好文 时间:
2019-07-24 00:24:01
阅读次数:
140
Hive 函数 !!!_a前面是类型 1.1 日期函数: 1.2 集合函数 实例:hive> select size(array(1,1,2,3,4)); !!!注意都是小括号哈 1.3 条件函数 1.4 聚合函数 ...
分类:
其他好文 时间:
2019-07-23 23:47:59
阅读次数:
100
Presto因其优秀的查询速度被我们所熟知,它本身基于MPP架构,可以快速的对Hive数据进行查询,同时支持扩展Connector,目前对Mysql、MongoDB、Cassandra、Hive等等一系列的数据库都提供了Connector进行支持。是我们常用的SQL on Hadoop的解决方案。那 ...
分类:
其他好文 时间:
2019-07-23 22:38:25
阅读次数:
145