一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, ...
分类:
其他好文 时间:
2020-05-29 20:55:31
阅读次数:
55
--PARTITION BY分组 DECLARE @table TABLE ( code VARCHAR(100) ,name NVARCHAR(100) ) INSERT INTO @table( code ,name)VALUES('张三','aa'),('张三','aa'),('张三','aa ...
分类:
数据库 时间:
2020-05-29 13:42:54
阅读次数:
102
一、技术总结 题意就是给N个整数,将他们分成两组,要保证两组的整数数量之差最小,同时两个数组的差值最大。 简单思考一下便知,将两组平分即可,如果N是偶数就数量差为0,如果为奇数数量差为1,再将N个数字从小到大排列分组就可求得差值最大。 二、参考代码 #include<bits/stdc++.h> u ...
分类:
其他好文 时间:
2020-05-28 21:29:10
阅读次数:
55
C 代表 Consistency,一致性,是指所有节点在同一时刻的数据 是相同的,即更新操作执行结束并响应用户完成后,所有节点存储的数据会保持相同。 A 代表 Availability,可用性,是指系统提供的服务一直处于可用状态, 对于用户的请求可即时响应。 P 代表 Partition Toler ...
分类:
其他好文 时间:
2020-05-26 09:24:39
阅读次数:
127
``` ? ~ diskutil list #确认烧刻的磁盘 /dev/disk0 (internal, physical): #: TYPE NAME SIZE IDENTIFIER 0: GUID_partition_scheme *1.0 TB disk0 1: EFI EFI 314.6 M... ...
分类:
系统相关 时间:
2020-05-25 12:31:02
阅读次数:
71
Kafka 是现在大数据中流行的消息中间件,其中 kafka 中由 topic 组成,而 topic 下又可以由多个 partition 构成。有时候我们在消费 kafka 中的数据想要保证消费 kafka 中的所有的分区下数据是全局有序的,这种情况下就需要将 topic 下的 partition ...
分类:
其他好文 时间:
2020-05-25 09:38:02
阅读次数:
231
KafkaStream概念及初识高层架构图KafkaStream是ApacheKafka从0.10版本引入的一个新Feature,它提供了对存储于Kafka内的数据进行流式处理和分析的功能。简而言之,KafkaStream就是一个用来做流计算的类库,与Storm、SparkStreaming、Flink的作用类似,但要轻量得多。KafkaStream的基本概念:KafkaStream是处理分析存储
题意: 给出一棵点权树,一个树的大小定义为所有点的权值和。问将一棵树分为 $k$ 棵子树,如何分割才能使所有树的大小的最大值最小? "传送门" 分析: 最大值最小化问题,考虑用二分求解,枚举答案。 问题转化为如何分割树来判断当前答案是否满足要求。如果一个子树 $v$ 的权重大于 $mid$,则先选择 ...
分类:
其他好文 时间:
2020-05-24 11:32:52
阅读次数:
51
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/ ...
分类:
其他好文 时间:
2020-05-23 18:03:51
阅读次数:
49
问题: 给定数组,切分为left和right,使得left的所有元素<=right的所有元素,返回left的长度 Example 1: Input: [5,0,3,8,6] Output: 3 Explanation: left = [5,0,3], right = [8,6] Example 2: ...
分类:
其他好文 时间:
2020-05-23 13:20:11
阅读次数:
49