在前面几篇中分类问题和回归问题里涉及到的伯努利分布和高斯分布都是广义线性模型(Generative Linear Models.GLMs)的特例。下面将详细介绍广义线性模型。
1、指数族
我们可以将一些分布总结到一个指数族中。指数族可表示为:
η是指naturalparameter/canonical parameter,T (y)是指sufficientstatistic...
分类:
其他好文 时间:
2015-07-07 22:57:28
阅读次数:
246
最近刷Leetcode发现凡是找字符串中重复字符或者数组中找重复数据的时候就不知道从何下手了。
所以决定学习一下哈希表解题,哈希表的原理主要是解决分类问题,hash表是介于链表和二叉树之间的一种中间结构。链表使用十分方便,但是数据查找十分麻烦;二叉树中的数据严格有序,但是这是以多一个指针作为代价的结果。hash表既满足了数据的查找方便,同时不占用太多的内容空间,使用也十分方便。
定义ha...
分类:
其他好文 时间:
2015-07-07 22:50:31
阅读次数:
189
最近刷Leetcode发现凡是找字符串中重复字符或者数组中找重复数据的时候就不知道从何下手了。
所以决定学习一下哈希表解题,哈希表的原理主要是解决分类问题,hash表是介于链表和二叉树之间的一种中间结构。链表使用十分方便,但是数据查找十分麻烦;二叉树中的数据严格有序,但是这是以多一个指针作为代价的结果。hash表既满足了数据的查找方便,同时不占用太多的内容空间,使用也十分方便。
定义ha...
分类:
其他好文 时间:
2015-07-07 22:49:44
阅读次数:
198
**机器学习笔记—-监督学习与无监督学习的异同**有监督学习在监督学习中,输入数据和输出数据存在某种关系,即在已经给定的数据集下,对应的正确输出结果,已经大约知道是什么样子了。有监督学习常常被归类为 回归 和 分类 问题。在回归问题中,我们希望得到连续值的输出预测值,即,使用某些连续函数来映射输入值。在分类问题中,则希望获得的是离散的预测值。将输入值映射到离散的种类上。...
分类:
其他好文 时间:
2015-07-06 17:53:46
阅读次数:
124
SVM是用来解决非线性分类问题的。PART I 引入首先我们假设样本线性可分【稍后我们还会去掉这个假设】我们把之前logistic回归里面吗定义的那一坨稍微修改一下:令g(z)=1 (z>=0) or -1 (z=0由上式和约束条件可以得出:【证明:设存在w'使得gi(w')>0,那么就可以取...
分类:
其他好文 时间:
2015-07-05 16:27:41
阅读次数:
195
本文为《Kernel Logistic Regression and the Import Vector Machine》的阅读笔记是技法课的课外阅读Abstract:基于KLR kernel logistic regression,能自然延伸到多分类问题提供属于各类的概率也有类似support v...
分类:
系统相关 时间:
2015-07-04 23:30:28
阅读次数:
215
对于分类问题,在给定数据集前提下,训练比较粗糙的弱分类器比精确的强分类器容易得多。另外,Schapire证明了强可学习与弱可学习是等价的,因此首先学习简单的弱分类器,并进行组合就可以得到强分类器,这就是组合方法的理论基础。
组合(Ensemble)方法是一种提高分类准确率的方法,是一个由多个弱分类器组合的复合模型,其中每个单个分类器都进行投票,组合分类器返回最终组合的结果,这样分类的结果比单个分类...
分类:
其他好文 时间:
2015-06-29 20:24:16
阅读次数:
167
统计学场景:一个罐子中有红球和绿球,红球比例$v$未知,数量未知,如何得到红球比例?方法---随机抽样N个球,在其中红球占比为$u$由hoeffding可以知道:$P(|u-v|>\epsilon)\leq 2e^{-2\epsilon^2N}$对应到机器学习分类问题:目标函数为$f(x)$,现要估...
分类:
其他好文 时间:
2015-06-28 17:01:03
阅读次数:
103
分类模型如下: 回归问题:学习的结果是连续的,比如房价等等
分类问题:学习的结果是非连续的,分成某几个类
梯度下降例子:
:条件:
对于输入X有n个特征值。X = {x1,x2,x3,x4,.......,xnx_1, x_2, x_3, x_4, ....... ,x_n}
一共有m组输入。X1,X2,......,XmX_1, X_2, ...... , X_m
结果:
根据给出的数据得到函数...
分类:
其他好文 时间:
2015-06-20 17:06:49
阅读次数:
207
softmax回归用来解决K类分类问题,其实就是logistic回归的扩展。注意:1.对于sigmod函数g(x),当x∈[-1,1]时效果比较好。所以先把样本数据进行归一化(本例中就是对每一个数都除以10)2.这次的参数θ不再是一维的向量了而是二维的矩阵: tt[1..CLS][1..LEN] ....
分类:
其他好文 时间:
2015-06-20 00:19:19
阅读次数:
278