码迷,mamicode.com
首页 >  
搜索关键字:HIVE    ( 5904个结果
Hive优化
整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...
分类:其他好文   时间:2020-03-29 19:55:40    阅读次数:105
Hive中三种方式删除表数据内容
使用truncate仅可删除内部表数据,不可删除表结构 truncate table 表名 (truncate可删除所有的行,但是不能删除外部表) 使用shell命令删除外部表 hdfs -dfs -rm -r 外部表路径 使用 drop 可删除整个表 drop table 表名 ...
分类:其他好文   时间:2020-03-28 20:08:48    阅读次数:72
KVM之KVM安装部署
KVM是指基于Linux内核的虚拟机(Virtual Machine)。KVM主要在于它是与Linux内核集成的,所以速度很快。KVM的宿主操作系统必须是Linux,支持的客户机操作系统包括Linux、Windows、Solaris和BSD,运行在支持虚拟化扩展的x86和x86_64硬件架构上,cpu支持VT技术。
分类:其他好文   时间:2020-03-27 17:06:19    阅读次数:91
python 连接使用LDAP认证的hive
主要使用pyhive包。 使用linux中的普通账号,venv环境。python版本 3.6.4。 ldap认证需要sasl包,在安装sasl包的时候因为机器中没有g++编译器,导致无法安装。因为我使用的普通账号,没法给服务器安装g++编译器,解决的方案是在另一台机器中安装sasl,将安装完成后生成 ...
分类:编程语言   时间:2020-03-27 17:04:09    阅读次数:206
SparkSession 与SparkContext
SparkSession: SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession ...
分类:其他好文   时间:2020-03-27 16:48:03    阅读次数:46
sqoop oracle到hive,动态分区一次操作记录
sqoop,将oracle数据传递到hive,可以直接将表数据覆盖传递,也可以按select传递,这里我用的是select查询的 脚本如下: 1、创建分区表,按c1分区 CREATE TABLE `xx.cc`( `c1` string) PARTITIONED BY(`c2` string); 2 ...
分类:数据库   时间:2020-03-27 14:25:12    阅读次数:214
利用hive-hbase表做hive表快速入库hbase功能,纬度表的查询
有个需求是纬度表需要秒出数据,首先表刚好也是1-1批对的情况,首先想到了利用hbase的索引机制。(表数据大概在4--30E之间) 虽然网上有很多直接建立hive表,自动创建hbase表的例子,但是这种情况不能进行hbase表的region预分区,导致热点问题比较严重。所以hive和hbase表要分 ...
分类:其他好文   时间:2020-03-26 13:56:37    阅读次数:103
Hive的安装部署全过程详细版
首先先简单介绍下hive: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 核心架构: Hive官网地址 http:// ...
分类:其他好文   时间:2020-03-26 01:39:24    阅读次数:93
Hive 时间操作
Hive 时间转换 UNIX时间戳概念:因为UNIX时间戳只是一个秒数,一个UNIX时间戳在不同时区看来,时间是不同的。如UNIX时间戳0,在0时区看来是1970-01-01 00:00:00,在东八区看来是1970-01-01 08:00:00。 hive常用时间操作示例 -- 返回UNIX时间戳 ...
分类:其他好文   时间:2020-03-25 23:20:23    阅读次数:85
hive sql 优化 - 2.0
hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗?2、真的需要扫描那么多的分区么?3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group ...
分类:数据库   时间:2020-03-25 19:41:04    阅读次数:90
5904条   上一页 1 ... 43 44 45 46 47 ... 591 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!