Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTex ...
分类:
其他好文 时间:
2019-12-14 15:24:37
阅读次数:
160
1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Jo ...
分类:
其他好文 时间:
2019-12-14 14:08:06
阅读次数:
92
在ubuntu下安装gcc ~~~ 第一次写blog,多多包涵! ~~~ gcc安装步骤 废话不多说,gcc安装步骤如下: ~~~ 1. sudo apt update 2. sudo apt install build essential ~~~ ? 如果要验证gcc编译器是否已经安装完毕,可以使 ...
分类:
系统相关 时间:
2019-12-13 19:36:53
阅读次数:
198
1.应用层建内部表,数仓表用外部表 2.存储格式一般选orcfile,除非需要直接load数据的表则选textfile 3.建表时要指定库名 hive的建表样例 create table if not exists 表名( 字段名 字段类型 comment'字段描述' 。。。。。。。。。。。。。。。 ...
分类:
其他好文 时间:
2019-12-13 18:01:38
阅读次数:
88
转:https://www.cnblogs.com/raphael5200/p/5221927.html Python的输入输出都是\t为分隔符,否则会出错,python脚本输入print出规定格式的数据 用法为先add file,使用语法为TRANSFORM (name, items) USING ...
分类:
编程语言 时间:
2019-12-13 13:56:46
阅读次数:
101
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式 ...
分类:
其他好文 时间:
2019-12-13 13:37:45
阅读次数:
263
拷贝文件 shutil.copy2('原文件', '现文件')shutil.copy2('file', 'temp') 拷贝目录 shutil.copytree("原目录", "新目录", ignore=shutil.ignore_patterns("*.pyc"))# shutil.copytre ...
分类:
其他好文 时间:
2019-12-13 00:20:54
阅读次数:
122
Rsync的参数详细解释-v, --verbose 详细模式输出-q, --quiet 精简输出模式-c, --checksum 打开校验开关,强制对文件传输进行校验-a, --archive 归档模式,表示以递归方式传输文件,并保持所有文件属性,等于-rlptgoD-r, --recursive ... ...
分类:
其他好文 时间:
2019-12-13 00:11:24
阅读次数:
96
拉链表测试: 有如下测试数据 --2019/12/1号订单的全量数据 id status create_time operation_time 1 待支付 2019-12-01 2 待支付 2019-12-01 3 已支付 2019-12-01 --2019/12/2号订单的全量数据 id stat ...
分类:
其他好文 时间:
2019-12-12 17:55:34
阅读次数:
164
当需要从Hive等Hadoop集群迁移数据到GaussDB200集群时,因为数据量太大,可能无法导出到本地。此时需要GaussDB200跨集群读取HDFS上的数据,并写入GaussDB200集群。目前GaussDB200只支持跨集群访问FusionInsightHD中的HDFS。前提条件FusionInsightHD和GaussDB200两个集群状态正常并且可以互相通信。远端FusionInsig
分类:
数据库 时间:
2019-12-12 16:34:48
阅读次数:
212