码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习积累【2】

时间:2017-09-01 20:22:55      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:font   噪声   简单   detail   img   去除   tps   平衡   直接   

1、样本不平衡问题

正样本多余正样本:

1)欠采样,随机抽取负样本去除,使的正负样本比例平衡。缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息

2)过采样,增加一些正样本,使得正负样本比例接近。最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的方法是通过在少数类中加入随机高斯噪声或产生新的合成样本等方法。

3)直接使用原始训练数据进行训练,但在训练好的分类器进行预测时,将比例缩放嵌入到其决策的过程中,称为“阈值移动”。

技术分享

4)

在类别不平衡中,以下几个点需要注意:

常规的分类评价指标可能会失效,比如将所有的样本都分类成大类,那么准确率、精确率等都会很高。这种情况下,AUC时最好的评价指标。
你能够使用原型选择技术去降低不平衡水平。选择那些重要的样本。One-Sided Selection (OSS) 是一个预处理技术(模型训练之前使用),能够处理类别不平衡问题。
从另一个角度,可以增加小类的样本个数,可以使用过采样与原型生成技术(prototype-generation techniques)。
在K-Fold 校验中,每一份数据集中原则上应该保持类别样本比例一样或者近似,如果每份数据集中小类样本数目过少,那么应该降低K的值,知道小类样本的个数足够。
一般来说,如果事前不对不平衡问题进行处理,那么对于小类别的样本则会错误率很高,即大部分甚至全部小类样本都会分错。

见文章:

1、在分类中如何处理训练集中不平衡问题

2、分类中数据不平衡问题的解决经验

 

 

机器学习积累【2】

标签:font   噪声   简单   detail   img   去除   tps   平衡   直接   

原文地址:http://www.cnblogs.com/liang2713020/p/7464759.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!