朴素贝叶斯(naive bayes)标签: Python 机器学习主要参考资料:《机器学习实战》《统计学习方法》1.朴素贝叶斯分类原理朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设(称为朴素的原因)的分类方法。先看看维基百科中贝叶斯定理的描述:
贝叶斯定理(维基百科)
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定...
分类:
其他好文 时间:
2016-04-01 18:14:48
阅读次数:
204
第一章 统计学习方法概论
统计学习的主要特点是:
(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最...
分类:
其他好文 时间:
2016-03-30 13:20:02
阅读次数:
245
第8章提升方法
提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
基本思想:对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器)...
分类:
其他好文 时间:
2016-03-30 13:17:45
阅读次数:
291
第7章 支持向量机
支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问。支持向...
分类:
其他好文 时间:
2016-03-30 13:17:03
阅读次数:
240
第2章 感知机
感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。
感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度
下降法对损失函数进行极小化求得感知机模型。
2.1 感知机模型
定义(感知...
分类:
其他好文 时间:
2016-03-30 13:16:48
阅读次数:
193
第10章隐马尔可夫模型
隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。
10.1 隐马尔可夫模型的基本概念
定义10.1 (隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过...
分类:
其他好文 时间:
2016-03-30 13:15:40
阅读次数:
235
第9章 EM算法及其推广
EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望(expectation);M步,求极大( maximization ),所以这一算法称为期望极大算法(expectation maximization algorithm),简称EM算法。
9...
分类:
编程语言 时间:
2016-03-30 13:15:16
阅读次数:
561
第11章 条件随机场
条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是...
分类:
其他好文 时间:
2016-03-30 13:14:33
阅读次数:
290
第12章 统计学习方法总结
1 适用问题
分类问题是从实例的特征向量到类标记的预测问题;标注问题是从观测序列到标记序列(或状态序列)的预测问题。可以认为分类问题是标注问题的特殊情况。
分类问题中可能的预测结果是二类或多类;而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的。
感知机、k近邻法、朴素贝叶斯法、决策树是简单的分类方法,具有模型直观、方法简单、实现容易等特...
分类:
其他好文 时间:
2016-03-30 13:14:29
阅读次数:
232
第6章 逻辑回归与最大熵模型
逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑回归模型与最大熵模型都属于对数线性模型。
6.1 逻辑回归模型
定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指
X具有下列分布函数和密度函...
分类:
其他好文 时间:
2016-03-30 13:13:41
阅读次数:
225