1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...
分类:
其他好文 时间:
2020-07-07 13:11:09
阅读次数:
164
统计审计基表AUD$UNIFIED ,不允许直接更改,且默认是按月分区。 通过以下 DBMS_AUDIT_MGMT 更改分区为1天 BEGIN DBMS_AUDIT_MGMT.ALTER_PARTITION_INTERVAL( interval_number => 1, interval_frequ ...
分类:
其他好文 时间:
2020-07-07 09:39:32
阅读次数:
70
create index audsys.idx_unified on audsys.AUD$UNIFIED(EVENT_TIMESTAMP) local tablespace sysaux; 创建本地组合前缀索引: EVENT_TIMESTAMP 是分区健 而在用视图UNIFIED_AUDIT_TR... ...
分类:
其他好文 时间:
2020-07-07 09:25:08
阅读次数:
62
当使用DBMS_AUDIT_MGMT.SET_AUDIT_TRAIL_LOCATION 更改用于存储审核数据的默认表空间时,会在新表空间中创建AUDSYS.AUD$UNIFIED表的所有新表分区,lob分区和索引分区。 (旧的分区仍保留在原表空间) 如果未在新表空间中创建LOB和INDEX分区,可能 ...
分类:
其他好文 时间:
2020-07-07 09:18:57
阅读次数:
78
几点说明hhaha 1.何为UD版:UD版是指用内置的fbinst工具在U盘或储存卡上分出一个隐藏的分区,称为UD,其特性是除了基于fbinst的工具可以进行读取之外,其它任何软件或者系统都无法读取其中的数据,具有防病毒、木马和防格式化的功能,安装简单,运行安装工具选好目标U盘一键完成安装;2.UD... ...
分类:
其他好文 时间:
2020-07-06 21:38:24
阅读次数:
79
1. 摘要 Hudi表允许多种类型操作,包括非常常用的upsert,当然为支持upsert,Hudi依赖索引机制来定位记录在哪些文件中。 当前,Hudi支持分区和非分区的数据集。分区数据集是将一组文件(数据)放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成,这种组织结构也非 ...
分类:
Web程序 时间:
2020-07-06 19:32:40
阅读次数:
67
1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所 ...
分类:
其他好文 时间:
2020-07-06 19:30:48
阅读次数:
57
参数基本策略 各分区的大小对GC的性能影响很大。如何将各分区调整到合适的大小,分析活跃数据的大小是很好的切入点。 活跃数据的大小是指,应用程序稳定运行时长期存活对象在堆中占用的空间大小,也就是Full GC后堆中老年代占用空间的大小。可以通过GC日志中Full GC之后老年代数据大小得出,比较准确的 ...
分类:
其他好文 时间:
2020-07-06 18:04:14
阅读次数:
55
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个可分区,不可变,里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中,后续的查询能够重用工作集 ...
分类:
其他好文 时间:
2020-07-06 16:20:23
阅读次数:
61
hive当中也带有很多的窗口函数以及分析函数,主要用于以下这些场景 (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 1、创建hive表并加载数据 创建表 hive (hive_explode)> create table order_detail( ...
分类:
其他好文 时间:
2020-07-05 20:55:24
阅读次数:
60