将数据存储在Amazon S3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分析数据。 尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍 ...
分类:
Web程序 时间:
2019-11-25 13:35:57
阅读次数:
166
参考: https://help.aliyun.com/document_detail/54530.html?spm=5176.11065259.1996646101.searchclickresult.d5d847dbBVUcQJ&aly_as=SCLlYD_p#title-k89-hb2-5zf ...
分类:
其他好文 时间:
2019-11-25 11:47:11
阅读次数:
67
这几天写代码的过程中遇到了需要使用外部程序启动AutoCAD的需求, 经过一番搜索, 找到了如下资料: 这些资料里的信息非常丰富, 有类似需求的朋友可以直接查看, 或者提取相关关键字再次搜索。 用外部程序启动AutoCAD方法的研究(启动闪屏制作与CreateProcess启动操控AutoCAD探索 ...
分类:
其他好文 时间:
2019-11-25 09:21:02
阅读次数:
54
环境信息 虚拟机:Centos 7 、 Hive版本:1.2.1 异常信息 异常处理 正常根据提示,使用 hdfs dfsadmin safemode leave 即可 但是我遇到了特殊情况,我使用命令hdfs dfsadmin safemode leave,不生效,幸亏看到一篇文章说可能虚拟机磁盘 ...
分类:
其他好文 时间:
2019-11-25 00:08:59
阅读次数:
101
本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建。 本地模式需要采用MySQL数据库存储数据。 1 环境介绍 一台阿里云ECS服务器:master 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: j ...
分类:
其他好文 时间:
2019-11-23 12:49:25
阅读次数:
82
字符转为时间,转换为日期的时间部分 select to_date('2019-11-20'); 查看当前时间的unix时间戳 select unix_timestamp(); 1574260385 unix时间转换为当前时区的时间,格式"yyyy-MM-dd HH:mm:ss",注意月份MM一定要大 ...
分类:
其他好文 时间:
2019-11-20 23:54:20
阅读次数:
154
1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。 2)行列过滤列处理 ...
分类:
其他好文 时间:
2019-11-20 22:04:02
阅读次数:
119
1) OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化2)CURRENT ROW:当前行3)n PRECEDING:往前n行数据4) n FOLLOWING:往后n行数据5)UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UN ...
分类:
其他好文 时间:
2019-11-20 21:57:03
阅读次数:
75
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:
数据库 时间:
2019-11-20 21:54:37
阅读次数:
91
1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; ...
分类:
其他好文 时间:
2019-11-20 21:53:13
阅读次数:
78