引言
我感觉学习机器学习算法还是要从数学角度入门才是唯一正道,机器学习领域大牛Michael I. Jordan给出的机器学习定义是,“A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and ...
分类:
其他好文 时间:
2015-01-02 21:10:55
阅读次数:
184
一、聚类:聚类也称之为自动分类,是一种无监督的学习方法。算法的原则是基于度量数据对象之间的相似性或相异性,将数据对象集划分为多个簇;相比较于分类技术,聚类只需要较少的专家知识(领域知识),就可以自动发掘数据集中的群组。
二、基本的聚类方法包括:
1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在...
分类:
编程语言 时间:
2015-01-02 17:37:52
阅读次数:
193
目标分布(Target Distribution)
在实际情形中,训练数据的误标签的情况,输入数据某一维不准确的情况,都可能导致数据信息不精准,产生噪声数据。
由于受到噪声的影响,我们现在可以把y也看做是一种概率分布,y也是从某种分布中取样而来的,即y~P(y|x)。
这里的P(y|x)被称为目标分布。
回头来看,我们可以把学习的目标总结为,在常见的输入(符合P(x...
分类:
其他好文 时间:
2015-01-02 11:01:42
阅读次数:
158
KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在虚拟筛选,生物测定数据,对化学信息学,J.由阿...
分类:
数据库 时间:
2015-01-01 22:22:14
阅读次数:
234
原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”,虽然发表于2012年,但是作者提出的观点对于今天仍有很多借鉴意义。作者:佩德罗·多明戈斯(Pedro Domi...
分类:
其他好文 时间:
2015-01-01 21:06:49
阅读次数:
691
近来看论文中经常看到GDA和朴素贝叶斯,并且论文中说的算法中用到的贝叶斯公式,对怎么用的原理比较困惑,今天主要看了斯坦福机器学习的关于GDA,NB和LR的讲义部分。理解了贝叶斯公式在GDA和NB中的原理,以及GDA和LR的关系。
与以前学习贝叶斯公式相比贝叶斯公式:对于目标B有不同的到达方式Ai,i=1,2,3,...,n。已知p(Ai)和p(B|Ai)的话,如果知道B发生了,可以知...
分类:
其他好文 时间:
2014-12-31 22:55:38
阅读次数:
599
Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop
MapReduce...
分类:
其他好文 时间:
2014-12-31 16:26:30
阅读次数:
136
概念学习
许多机器学习问题涉及从特殊训练样例中得到一般概念。比如人们不断学习的一些一般概念和类别。每个概念可被看作一个对象或事件集合,它是从更大的集合中选取的子集(如从动物的集合中选取鸟类),或者是在这个较大集合中定义的布尔函数(如在动物集合中定义的函数,它对鸟类返回true,对其他动物返回false)。
小孩理解一个词义的例子
考虑一个小孩子理解“狗”这个词的意义。假设当小孩的...
分类:
其他好文 时间:
2014-12-31 16:19:50
阅读次数:
133
前言 支持向量机,也即SVM,号称分类算法,甚至机器学习界老大哥。其理论优美,发展相对完善,是非常受到推崇的算法。 本文将讲解的SVM基于一种最流行的实现 - 序列最小优化,也即SMO。 另外还将讲解将SVM扩展到非线性可分的数据集上的大致方法。预备术语 1. 分割超平面:就是决策边界 2...
分类:
其他好文 时间:
2014-12-31 16:11:28
阅读次数:
459