1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:
其他好文 时间:
2014-09-13 20:02:35
阅读次数:
245
最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。...
分类:
其他好文 时间:
2014-09-13 00:51:24
阅读次数:
420
本节主要是练习regularization项的使用原则。因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产...
分类:
其他好文 时间:
2014-09-12 16:54:53
阅读次数:
206
scikit-learn 是一个python实现的免费开源的机器学习算法包,从字面意思可知,science 代表科学,kit代表工具箱,直接翻译过来就是用于机器学习的科学计算包。 安装scikit-learn有两种方式: (1)安装官方发布的包。 (2)安装第三方开发工具,里边已经包含了s...
分类:
其他好文 时间:
2014-09-12 11:53:13
阅读次数:
207
课程简介:
本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂...
分类:
其他好文 时间:
2014-09-11 23:57:02
阅读次数:
573
机器学习(4)之Logistic回归1. 算法推导 与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题。回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一组离散的,比如y只能取{0,1}。 假设一组样本为这样如图所示,如果需要用线性回归来拟合这些样本...
分类:
其他好文 时间:
2014-09-11 23:45:12
阅读次数:
348
最大似然估计: 这个我们大学学习概率一直用到的东西,其实非常牛逼! 什么是最大似然估计? 问题:给定一组观察数据还有一个参数待定的模型,如何来估计这个未知参数呢? 观察数据(x1,y1)......(xn,yn) 待定模型参数为θ,模型为f(x;θ)。这时候可以借助观察数据来估计这个θ。这...
分类:
其他好文 时间:
2014-09-11 19:05:12
阅读次数:
193
转自论坛http://www.ieee.org.cn/dispbbs.asp?BoardID=62&replyID=31567&id=29962&star=1&skin=0作者好像是南大周志华老师 我知道的几个人工智能会议(一流)下面同分的按字母序排列:IJCAI (1+): AI最好的综合性会议,...
分类:
其他好文 时间:
2014-09-11 15:10:52
阅读次数:
224
机器学习(3)之最小二乘法的概率解释在前面梯度下降以及正规方程组求解最优解参数Θ时,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y值之间面积的平方最小化?我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义。(1)假设1:假设输...
分类:
其他好文 时间:
2014-09-11 01:02:41
阅读次数:
291
课程简介:
本次课程主题为"泛化理论",介绍了机械学习相关课程,重点介绍与之相关的公式推导及其应用。是这一整套课程中最具理论的课程,如果读者理解了该部分内容,那么对于后面课程的理解将会有很大的帮助。...
分类:
其他好文 时间:
2014-09-10 17:49:21
阅读次数:
227