非均衡分类问题: 1、样本正反例数量差距大; 2、不同类别的分类代价不相等。 除了分类错误率,还有以下分类性能度量指标:正确率、召回率和ROC曲线 正确率:预测为正例的样本中真正正例的比例。 召回率:预测为正例的真实正例占所有真实正例的比例。 正确率和召回率很难同时达到很高。 ROC曲线:横轴为伪正 ...
分类:
其他好文 时间:
2018-11-07 23:07:38
阅读次数:
302
贝叶斯决策理论 贝叶斯决策理论是解决分类问题的一种基本统计途径,其出发点是利用概率的不同分类决策,与相应决策所付出的代价进行折中,它假设决策问题可以用概率的形式描述,并且假设所有有关的概率结构均已知。 各种概率及其关系 先验概率: $$P(\omega_i)$$ 后验概率: $$P(\omega_i ...
分类:
其他好文 时间:
2018-11-07 21:37:28
阅读次数:
177
虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当然,为了便于理解,我们从二值分类(binary classification)开始,在这类分类问题中,y ...
分类:
其他好文 时间:
2018-11-07 15:28:24
阅读次数:
175
为什么需要神经网络? 当我们对如下数据进行使用非线性回归分类时,我们可以使用包含很多非线性项的逻辑回归函数,来回归分类。下面是只有X1, X2两个特征的逻辑回归函数。 但是,如果数据包含上百个特征时呢?例如包含上百个特征的房屋分类问题,或者图像识别领域。例如:(x1, x2, x3, ... x10 ...
分类:
其他好文 时间:
2018-11-04 19:11:02
阅读次数:
125
生成学习算法 生成学习算法引入 目前为止,我们主要讲解了条件概率模型p(y|x,θ)的学习算法。接下来,我们将讨论其他的学习算法。接下来举个例子,比如现在遇到一个分类问题,基于一些特征来判断一个动物是大象 (y = 1) 还是小狗 (y = 0)。基于给定的数据集,我们可以采用logistic回归或... ...
分类:
编程语言 时间:
2018-11-04 17:05:59
阅读次数:
226
朴素贝叶斯算法 文本分类模型 在结束生成算法模型之前,我们将一种专门用于文本分类的算法。对于分类问题,朴素贝叶斯算法通常效果很好,而对于文本分类而言,则有更好的模型。 对于文本分类,之前提到的朴素贝叶斯算法又称之为多元伯努力事件模型(multi-variate Bernoulli event mod... ...
分类:
编程语言 时间:
2018-11-04 17:00:07
阅读次数:
284
本文主要总结决策树中的ID3,C4.5和CART算法,各种算法的特点,并对比了各种算法的不同点。 决策树:是一种基本的分类和回归方法。在分类问题中,是基于特征对实例进行分类。既可以认为是if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。 决策树模型:决策树由结点和有向边组 ...
分类:
编程语言 时间:
2018-11-03 14:07:16
阅读次数:
290
一.问题的提出 我们先回想一下之前经常处理的问题,我们常常是在给定这样一组模式的情况下: $$({x_1},{y_1}),...,({x_n},{y_n}) \in X \times Y$$ 寻找这样一个映射: $$f:X \to Y$$ 但是我们注意到,在各种回归和分类问题中,我们常常认为Y=R, ...
分类:
其他好文 时间:
2018-10-31 18:29:24
阅读次数:
201
Lecture6 Logistic Regression 逻辑回归 6.1 分类问题 Classification6.2 假设表示 Hypothesis Representation6.3 决策边界 Decision Boundary6.4 代价函数 Cost Function6.5 简化的代价函数 ...
分类:
其他好文 时间:
2018-10-31 10:33:47
阅读次数:
191
Lecture6 Logistic Regression 逻辑回归 6.1 分类问题 Classification6.2 假设表示 Hypothesis Representation6.3 决策边界 Decision Boundary6.4 代价函数 Cost Function6.5 简化的代价函数 ...
分类:
其他好文 时间:
2018-10-30 21:10:34
阅读次数:
248