标签:结构 不同 数据 code info 大小 统计学 目的 计算
定义
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的:
常用方法
1. 对原始数据绘图
2. 绘制原始数据的一些统计学图(箱型图、小提琴图、直方图等)
3. 多特征对比性绘图(查看不同的特征之间的关系)
1. 计算偏度和锋度
2. 区间估计
3. 分类类型
绘图方法
量化方法:
先定义三类变量:
1. 定类变量: 通过该变量可以进行分类,但是该变量没有实际的数值意义(例如性别,城市)。
2. 定序变量: 不仅可以用来分类,还按某种规律排序,不同的定序变量可以比较大小,有排序的能力,但是之间的差值没有意义(例如消费能力,教育程度)。
3. 定距变量: 可以比较大小,差值具有意义。(常见的连续变量,例如价格、购买数量)
不同类型的方法相关性检测的方法是不同的:
利用MVtest检验两个变量是否相关。
(mv test 待补)
特征工程-EDA(Exploratory Data Analysis)
标签:结构 不同 数据 code info 大小 统计学 目的 计算
原文地址:https://www.cnblogs.com/z1141000271/p/12594775.html