Weka算法Classifier-meta-Bagging源码分析...
分类:
其他好文 时间:
2014-09-14 20:49:17
阅读次数:
480
前言
最近几周花了点时间学习了下今年暑假龙星计划的机器学习课程,具体的课程资料参考见附录。本课程选讲了写ML中的基本模型,同时还介绍了最近几年比较热门,比较新的算法,另外也将ML理论和实际问题结合了起来,比如将其应用在视觉上,web上的等。总之,虽然课程内容讲得不是特别细(毕竟只有那么几节课),但是内容还算比较新和比较全的。学完这些课后,收获还算不少的,至少了解到了自己哪方面的知识比较弱...
分类:
其他好文 时间:
2014-09-14 01:25:10
阅读次数:
321
K近邻很简单。简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别。由于采用k投票机制,所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较...
分类:
其他好文 时间:
2014-09-13 20:04:05
阅读次数:
241
1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:
其他好文 时间:
2014-09-13 20:02:35
阅读次数:
245
本节主要是练习regularization项的使用原则。因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产...
分类:
其他好文 时间:
2014-09-12 16:54:53
阅读次数:
206
scikit-learn 是一个python实现的免费开源的机器学习算法包,从字面意思可知,science 代表科学,kit代表工具箱,直接翻译过来就是用于机器学习的科学计算包。 安装scikit-learn有两种方式: (1)安装官方发布的包。 (2)安装第三方开发工具,里边已经包含了s...
分类:
其他好文 时间:
2014-09-12 11:53:13
阅读次数:
207
课程简介:
本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂...
分类:
其他好文 时间:
2014-09-11 23:57:02
阅读次数:
573
机器学习(4)之Logistic回归1. 算法推导 与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题。回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一组离散的,比如y只能取{0,1}。 假设一组样本为这样如图所示,如果需要用线性回归来拟合这些样本...
分类:
其他好文 时间:
2014-09-11 23:45:12
阅读次数:
348
最大似然估计: 这个我们大学学习概率一直用到的东西,其实非常牛逼! 什么是最大似然估计? 问题:给定一组观察数据还有一个参数待定的模型,如何来估计这个未知参数呢? 观察数据(x1,y1)......(xn,yn) 待定模型参数为θ,模型为f(x;θ)。这时候可以借助观察数据来估计这个θ。这...
分类:
其他好文 时间:
2014-09-11 19:05:12
阅读次数:
193
转自论坛http://www.ieee.org.cn/dispbbs.asp?BoardID=62&replyID=31567&id=29962&star=1&skin=0作者好像是南大周志华老师 我知道的几个人工智能会议(一流)下面同分的按字母序排列:IJCAI (1+): AI最好的综合性会议,...
分类:
其他好文 时间:
2014-09-11 15:10:52
阅读次数:
224