一. 数据清洗主要工作 ? 噪声(Noise)消除 ? 噪声包含错误值(类别型字段)及离群值(数值型字段) ? 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理 2. 空值(Missing Value)填补 ? 人工填补? 自动填补 二.噪声如何处理 噪声侦测方法 ? 针对类别型字段, ...
分类:
其他好文 时间:
2020-06-27 19:56:43
阅读次数:
253
DWD(Data Warehouse Detail):数据明细层,结构和粒度与原始表保持一致,对ODS层数据进行清洗(取出空值、脏数据、超过极限范围的数据)。 DWD层的数据来源于ODS原始数据层,在原始数据层的Hive表里,只有一个字段,存储了原始的一条条日志信息,下面以事件(如商品点击事件,展示 ...
分类:
其他好文 时间:
2020-06-26 01:33:52
阅读次数:
262
唯一索引和主键索引区别: 1)主键为一种约束,唯一索引为一种索引,本质上就不同; 2)主键创建后一定包含唯一性索引,而唯一索引不一定就是主键; 3)主键不允许空值,唯一索引可以为空; 4)主键可以被其他表引用,而唯一索引不可以; 5)主键只允许一个,唯一索引允许多个; 6)主键和索引都是键,主键是逻 ...
分类:
其他好文 时间:
2020-06-25 21:35:12
阅读次数:
159
IS NULL 与 IS NOT NULL 不能用null作索引,任何包含null值的列都将不会被包含在索引中。即使索引有多列这样的情况下,只要这些列中有一列含有null,该列就会从索引中排除。也就是说如果某列存在空值,即使对该列建索引也不会提高性能。 任何在where子句中使用is null或is ...
分类:
其他好文 时间:
2020-06-24 23:44:36
阅读次数:
76
聚合函数:对一组值进行计算,并返回计算后的值,具有统计数据的作用 聚合函数特点: 1 除了 COUNT 以外,聚合函数忽略空值。 2 聚合函数经常与 SELECT 语句的 GROUP BY 子句一同使用。 3 所有聚合函数都具有确定性。任何时候用一组给定的输入值调用它们时,都返回相同的值。 4 标量 ...
分类:
其他好文 时间:
2020-06-24 21:23:58
阅读次数:
60
python 先安装 安装的时候需要勾选 Add Python xx to PATH python模式切换 命令行模式 开始输入 cmd 回车 进入命令模式,提示符为 盘符:\xx.. C:\>] 切换为 Python交互模式 在命令模式下输入 python 回车,提示符为 >>> >>> 退出py ...
分类:
编程语言 时间:
2020-06-24 19:55:22
阅读次数:
105
@CachePut 和 @Cacheable 区别 操作步骤如下: 1. t1 t2 都为空值 @CachePut("t1") public String getData1(){ return service.getData1(); } @Cacheable("t2") public String ...
分类:
编程语言 时间:
2020-06-24 16:00:47
阅读次数:
50
除了删除空值,还有一种处理空值的方法是填充(Imputation)。 让我们看看在revenue_millions列中填充缺失的值。 首先,将该列提取到变量中: revenue = movies_df['revenue_millions'] 使用DataFrame['列名']可以获取1列数据,即一个 ...
分类:
编程语言 时间:
2020-06-21 21:39:06
阅读次数:
127
主键、外键和索引的区别 定义: 主键–唯一标识一条记录,不能有重复的,不允许为空 外键–表的外键是另一表的主键, 外键可以有重复的, 可以是空值 索引–该字段没有重复值,但可以有一个空值 作用: 主键–用来保证数据完整性 外键–用来和其他表建立联系用的 索引–是提高查询排序的速度 个数: 主键–主键 ...
分类:
其他好文 时间:
2020-06-21 15:27:59
阅读次数:
62
如何快速清空对象还能保留结构呢。。。这是个好问题,然而我不会 单层的好说: //let obj = { "key1": 1, "key2": 2 }; 单层快速清空值,多层的话估计要递归清空了 //Object.keys(obj).forEach(key => obj[key] = ''); 多层的 ...
分类:
其他好文 时间:
2020-06-21 09:54:03
阅读次数:
178