与KNN比较:KNN是计算未知类型数据与已知类型数据之间的距离,与数值计算相关。Decision Tree 先是在已知数据集上构造好一棵决策树,树中的每个分叉会用到一个特征,这就需要用到信息熵的概念,对每个特征计算信息熵 来使得分叉处选取到最好的特征对数据进行分类,(训练集选取好最佳特征,测试集就按...
分类:
其他好文 时间:
2014-08-23 15:22:50
阅读次数:
210
Euclid's GameTime Limit: 2000/1000 MS (Java/Others)Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 2074Accepted Submission(s): 924Proble...
分类:
其他好文 时间:
2014-08-23 15:13:11
阅读次数:
214
机器学习就是把无序的数据转换成有用的信息。
机器学习的主要任务就是分类,通过通过训练数据训练算法,最终可以将实际的数据分到合适的类别中
监督学习算法:预测目标变量的值
k-means算法,线性回归
朴素贝叶斯算法,局部加权线性回归
支持向量机,ridge回归
决策树,lasso最小回归系数估计
无监督学习算法:不需要预测目标变量的值
k-均值,最大期望算法
DBS...
分类:
其他好文 时间:
2014-08-22 14:28:59
阅读次数:
340
Linear Regreesion 线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可。 Cost Function的...
分类:
其他好文 时间:
2014-08-21 22:34:24
阅读次数:
349
网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比如下棋或直升机自动驾驶 无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到...
分类:
其他好文 时间:
2014-08-21 18:43:24
阅读次数:
271
1、在web界面找到要恢复的虚拟机2、查看虚拟机的云硬盘ID3、列如:云硬盘的ID是49a426c8-6a9c-4047-a100-8ad07885952c4、从数据库cinder库中,卸载云硬盘和虚拟机的挂载1)、查看此云硬盘的信息mysql>select*fromvolumeswhereid="49a426c8-6a9c-4047-a100-8ad07885952c";+---..
分类:
其他好文 时间:
2014-08-21 15:15:14
阅读次数:
323
真的是应了那么一句话:“行百里者半九十”,原先还曾豪情壮志的想把blog搞得有声有色,得一个“恒”字勋章。现在看来,暑期将尽,更新无多,愧对了自己的那份心情。
好在亡羊补牢,把最近的一些行程做一个简单的总结,荒疏的事情,重新捡起。
6月22-7月14这段时间,基本上是连——沈两地通勤了,没办法了,接了“机器学习导论”这门小学期的课程,也算是一个小的尝试,头一次讲解,马虎不得。课件、作业、程序,...
分类:
其他好文 时间:
2014-08-20 22:43:53
阅读次数:
244
简要介绍EM算法,并使用EM算法求解两个高斯分布的参数估计问题,使用Python实现代码运行。...
分类:
编程语言 时间:
2014-08-20 22:43:13
阅读次数:
1391
Probabilistic Latent Semantic Indexing(PLSI/PLSA)是常用的话题模型之一,他通过生成模型来模拟文档的产生过程,然后用Maximum likelihood的方法估计模型中未知参数的值,来获取整个生成模型中的参数值,从而构建起整个生成模型。...
分类:
其他好文 时间:
2014-08-20 16:32:52
阅读次数:
342
机器学习中的数据不平衡问题最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的...
分类:
其他好文 时间:
2014-08-20 15:52:02
阅读次数:
229