概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。之前的基础实验中简单实现了朴素贝叶斯分类器,并正确执行了文本分类,这一节将贝叶斯运用到实际场景,垃圾邮件过滤这一实际应用。...
分类:
其他好文 时间:
2015-09-15 00:18:48
阅读次数:
232
KNN算法实现:提取文本:importnumpyasnp
//提取文本
defloadDataSet(fileName):
numFeat=len(open(fileName).readline().split(‘,‘))
dataMat=[];labelMat=[]
fr=open(fileName)
forlineinfr.readlines():
lineArr=[]
line=line.strip()
curline=line.split(‘,‘)
foriinrange..
分类:
编程语言 时间:
2015-09-14 16:53:03
阅读次数:
331
本节主要内容
IndexedRowMatrix
BlockMatrix
1. IndexedRowMatrix的使用IndexedRowMatrix,顾名思义就是带索引的RowMatrix,它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行,index表示的就是它的索引,vector表示其要存储的内容。其使用方式如下:pack...
分类:
系统相关 时间:
2015-09-14 12:19:30
阅读次数:
267
机器学习从学习方式上来讲,可以分为两类: 监督学习(Supervised Learning),简而言之就是“有标签”学习 无监督学习(Unsupervised Learning),简而言之就是“无标签”学习为了便于今后的机器学习,吴恩达先生(Andrew Ng)特别提出了一些notation(汉.....
分类:
其他好文 时间:
2015-09-13 17:09:17
阅读次数:
175
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据...
分类:
编程语言 时间:
2015-09-12 23:32:24
阅读次数:
323
原文:http://dataunion.org/13451.html作者:xbinworld引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据...
分类:
编程语言 时间:
2015-09-12 16:09:08
阅读次数:
272
偏置和方差参考资料:http://scott.fortmann-roe.com/docs/BiasVariance.html http://www.cnblogs.com/kemaswill/Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习....
分类:
其他好文 时间:
2015-09-12 16:06:39
阅读次数:
246
最大后验估计(MAP) 最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,最大区别是,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。 ...
分类:
其他好文 时间:
2015-09-12 13:37:52
阅读次数:
147
Andrew Ng机器学习课程10补充VC dimension讲到了如果通过最小化训练误差,使用一个具有d个参数的hypothesis class进行学习,为了学习好,一般需要参数d的线性关系个训练样本。到这里需要指出一点,这个结果是基于empirical risk minimization得到的,而对于那些大部分的discriminative的学习算法采用的通过最小化training error或...
分类:
其他好文 时间:
2015-09-12 12:19:54
阅读次数:
135
概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。...
分类:
其他好文 时间:
2015-09-12 00:52:33
阅读次数:
222