1.提升方法是将弱学习算法提升为强学习算法的统计学习方法,在分类学习中,提升方法通过反复修改训练数据的权值分布,构建一系列基本分类器,并将这些基本的分类器线性组合,构成一个强分类器,代表性的提升方法是AdaBoost算法。2.AdaBoost算法的特点是通过迭代每次学习一个基本分类器,每次迭代中提高...
分类:
其他好文 时间:
2015-09-07 22:49:51
阅读次数:
326
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性...
分类:
编程语言 时间:
2015-09-05 23:46:00
阅读次数:
206
SVM整理Last modified: 2015.9.21.算法总结支持向量机是Cortes和Vapnik于1995年首先提出的,它在解决小样本,非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础...
分类:
其他好文 时间:
2015-09-03 23:26:41
阅读次数:
511
前言 定义: 在特征空间上间隔最大的线性分类器。 核是SVM非常重要的一个特性。 支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题。 分类 1》线性可分支持向量机 2》线性支持向量机 3》非线性支持向量机 如果训练数据线性可分,那么可以通过硬间隔最大化,学习一个线性分类器,就是...
分类:
其他好文 时间:
2015-09-02 00:31:35
阅读次数:
237
前言 本章的两个模型都是对数线性模型。 逻辑斯蒂分布 如果变量X服从逻辑斯蒂分布,那么X的分布一定是y轴对称的。曲线在中心部分增长的较快。两端增长缓慢。 二项逻辑斯蒂回归模型 其本质就是条件概率P(Y|X)。也就意味着给定X,求出最大可能的Y来。 Y取值只有1和0。 考虑条件概率分布。 逻辑斯蒂回归...
分类:
其他好文 时间:
2015-09-01 21:27:01
阅读次数:
237
模型选择的一些基本思想和方法0. 引言有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观...
分类:
其他好文 时间:
2015-08-31 19:26:08
阅读次数:
304
EM算法(Expectation Maximization Algorithm)1. 前言 这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来),是学习李航老师的《统计学习方法》书以及斯坦福机器学习课Andrew Ng的EM算法课后,对EM算法学习的介绍性笔记,如有写得不....
分类:
编程语言 时间:
2015-08-29 21:25:56
阅读次数:
331
前言:用途:分类。类似于if-then集合优点:速度快。原则:损失函数最小化,这是所有机器学习算法的原则。步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点,太好理解了,无需讨论。if-then 集合if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保...
分类:
其他好文 时间:
2015-08-29 00:35:39
阅读次数:
279
需要知道的是在什么时候可以用朴素贝叶斯算法:需要保证特征条件独立。 主要过程是学习输入和输出的联合概率分布。 预测的时候,就可以根据输入获得对打后验概率对应的输出y。 先验概率:已知输出,求输入。后验概率相反。 简单来说朴素贝叶斯算法,就是在对样本进行学习之后,到了需要做决策的时候,给定...
分类:
编程语言 时间:
2015-08-28 22:54:41
阅读次数:
285
第11章 条件随机场条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问...
分类:
其他好文 时间:
2015-08-28 21:24:31
阅读次数:
1900