标签:多少 最小值 特征 desc 相关 技术分享 news 复数 var
数据质量分析
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据;
1.缺失值处理
统计缺失率,缺失数
2.异常值处理
(1)简单统计量分析
(2)3Q原则
正态分布情况下,小概率事件为异常值
不服从正太分布的,可以用原离平均值多少倍标准差来分析
(3)箱线图分析
使用describe()描述
主要数据探索函数
1.Pandas常用函数总结
导入数据

导出数据

查看、检查数据

数据选取

数据清理

数据处理:Filter 、Sort 和 GroupBy

ids = [1,4,3,3,4,2,3,4,5,6,1]news_ids = list(set(ids))news_ids.sort(ids.index)
数据合并、数据统计

2.拓展统计特征函数
累计统计特征函数
标签:多少 最小值 特征 desc 相关 技术分享 news 复数 var
原文地址:https://www.cnblogs.com/yaowentao/p/8882386.html