IDEA https://www.cnblogs.com/tonycody/p/3257601.html Nodpad++连接Linux https://blog.csdn.net/GuoYuanNan/article/details/77168387 IDEA+MAVN HIVE UDF http ...
分类:
其他好文 时间:
2020-02-28 22:24:29
阅读次数:
64
1、datax简述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数 ...
分类:
其他好文 时间:
2020-02-27 20:52:31
阅读次数:
264
建表 1 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) 2 [(col_name dat ...
分类:
其他好文 时间:
2020-02-26 18:43:12
阅读次数:
80
一、Device Mapper简介 dm-verity是内核子系统的Device Mapper中的一个子模块,所以在介绍dm-verity之前先要介绍一下Device Mapper的基础知识。Device Mapper为Linux内核提供了一个从逻辑设备到物理设备的映射框架,通过它,用户可以定制资源 ...
分类:
其他好文 时间:
2020-02-26 01:43:59
阅读次数:
139
1.获取 不管是什么格式,一旦锁定了某种数据,那么了解该数据中有什么以及没有什么,就变得非常重要了。 import urllib.request 2.检查和探索 主要的目标是合理 地检查数据,而实现这一点的最好办法是发现不可能或几乎不可能的事情。举个例子, 如果数据具有唯一的标识符,检查是否真的只有 ...
分类:
其他好文 时间:
2020-02-25 20:34:44
阅读次数:
60
下载路径 Hadoop所有版本:http://archive.apache.org/dist/hadoop/common/ ...
分类:
其他好文 时间:
2020-02-24 16:55:48
阅读次数:
51
拒绝花里胡哨的安装,直接输入下方语句即可 root@xxx~# apt-get install build-essential 安装过程中的问题 E: Unable to fetch some archives, maybe run apt-get update or try with --fix- ...
分类:
系统相关 时间:
2020-02-24 10:02:17
阅读次数:
85
https://www.cnblogs.com/raymoc/p/5323824.html 大表对小表应该使用MapJoin ,set hive.auto.convert.join=true;让hive自动识别,把join变成合适的Map Join 大表对大表 set hive.auto.conve ...
分类:
其他好文 时间:
2020-02-23 20:24:57
阅读次数:
64
1、MapJoin 如果不指定 MapJoin 或者不符合 MapJoin 的条件,那么 Hive 解析器会将 Join 操作转换成 Common Join,即:在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map 端进行 join,避免 r ...
分类:
其他好文 时间:
2020-02-22 21:29:41
阅读次数:
63
https://www.wmathor.com/index.php/archives/1124/ 首部 mac地址是会变化的 https://www.zhihu.com/question/21546408 https://cloud.tencent.com/developer/article/117 ...
分类:
系统相关 时间:
2020-02-20 17:11:03
阅读次数:
73