一、自动分区推断1、概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,... ...
分类:
其他好文 时间:
2019-07-31 17:01:49
阅读次数:
138
数据库中通过group by找出表中的重复数据 有时候在做数据割接时会碰到数据插入失败的情况,大部分都是导出的数据中存在重复导致的。我们可以通过查询语句带分组条件来确认是否有重复数据。例如我现在有表 t_wlf_info,其中有个 username字段,我可以通过如下语句看username的重复记录 ...
分类:
数据库 时间:
2019-07-24 13:07:32
阅读次数:
113
由于某些原因,我们的MongoDB里存在重复数据,甚至已经影响到数据统计。 其实在MongoDB 3.2之前可以通过索引直接去重。但这一特性在3.2版本之初已经移除。 大概思路是,通过aggregation先group出重复的键值对并做count,之后match所有count>2的键值对,认为他们是 ...
分类:
数据库 时间:
2019-07-21 13:40:53
阅读次数:
100
给出N个数,要求把其中重复的去掉,只保留第一次出现的数。 例如,给出的数为1 2 18 3 3 19 2 3 6 5 4,其中2和3有重复,去除后的结果为1 2 18 3 19 6 5 4。 Input 输入第一行为正整数T,表示有T组数据。 接下来每组数据包括两行,第一行为正整数N,表示有N个数。 ...
分类:
其他好文 时间:
2019-07-20 00:23:04
阅读次数:
124
练习1:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? 输出结果: 练习2:企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的部分,可提成7.5%;20万到40 ...
分类:
编程语言 时间:
2019-07-16 00:23:28
阅读次数:
119
有些 MySQL 数据表中可能存在重复的记录,有些情况我们允许重复数据的存在,但有时候我们也需要删除这些重复的数据。 本章节我们将为大家介绍如何防止数据表出现重复数据及如何删除数据表中的重复数据。 防止表中出现重复数据 你可以在 MySQL 数据表中设置指定的字段为 PRIMARY KEY(主键) ...
分类:
数据库 时间:
2019-07-12 18:26:33
阅读次数:
129
以下摘自pymongo文档: update_one(filter, update, upsert=False) update_many(filter, update, upsert=False) filter: A query that matches the document to update. ...
分类:
数据库 时间:
2019-07-11 11:11:58
阅读次数:
666
给定一个包含 n + 1 个整数的数组 nums,其数字都在 1 到 n 之间(包括 1 和 n),可知至少存在一个重复的整数。假设只有一个重复的整数,找出这个重复的数。 示例 1: 输入: [1,3,4,2,2]输出: 2示例 2: 输入: [3,1,3,4,2]输出: 3说明: 不能更改原数组( ...
分类:
其他好文 时间:
2019-07-09 00:22:47
阅读次数:
77
给定一个由正整数组成且不存在重复数字的数组,找出和为给定目标正整数的组合的个数。 示例: nums = [1, 2, 3]target = 4 所有可能的组合为:(1, 1, 1, 1)(1, 1, 2)(1, 2, 1)(1, 3)(2, 1, 1)(2, 2)(3, 1) 请注意,顺序不同的序列 ...
分类:
其他好文 时间:
2019-07-08 23:48:40
阅读次数:
144
常见的sql分类五种分类 1. DDL (Data Definition Language)数据库定义语言 2. DML (Data Manipulation Language)数据操作语言 3. DCL (Data Control Language)数据控制语言 4. TCL (Transacti ...
分类:
其他好文 时间:
2019-07-08 13:43:16
阅读次数:
92