码迷,mamicode.com
首页 >  
搜索关键字:机器学习    ( 9327个结果
《机器学习实战》学习笔记:基于朴素贝叶斯的垃圾邮件过滤
概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。之前的基础实验中简单实现了朴素贝叶斯分类器,并正确执行了文本分类,这一节将贝叶斯运用到实际场景,垃圾邮件过滤这一实际应用。...
分类:其他好文   时间:2015-09-15 00:18:48    阅读次数:232
学习日志---knn算法实现
KNN算法实现:提取文本:importnumpyasnp //提取文本 defloadDataSet(fileName): numFeat=len(open(fileName).readline().split(‘,‘)) dataMat=[];labelMat=[] fr=open(fileName) forlineinfr.readlines(): lineArr=[] line=line.strip() curline=line.split(‘,‘) foriinrange..
分类:编程语言   时间:2015-09-14 16:53:03    阅读次数:331
Machine Learning On Spark——第二节:基础数据结构(二)
本节主要内容 IndexedRowMatrix BlockMatrix 1. IndexedRowMatrix的使用IndexedRowMatrix,顾名思义就是带索引的RowMatrix,它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行,index表示的就是它的索引,vector表示其要存储的内容。其使用方式如下:pack...
分类:系统相关   时间:2015-09-14 12:19:30    阅读次数:267
Lession1 写在机器学习之前
机器学习从学习方式上来讲,可以分为两类: 监督学习(Supervised Learning),简而言之就是“有标签”学习 无监督学习(Unsupervised Learning),简而言之就是“无标签”学习为了便于今后的机器学习,吴恩达先生(Andrew Ng)特别提出了一些notation(汉.....
分类:其他好文   时间:2015-09-13 17:09:17    阅读次数:175
利用AdaBoost元算法提高分类性能
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据...
分类:编程语言   时间:2015-09-12 23:32:24    阅读次数:323
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
原文:http://dataunion.org/13451.html作者:xbinworld引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据...
分类:编程语言   时间:2015-09-12 16:09:08    阅读次数:272
Bias and Variance 偏置和方差
偏置和方差参考资料:http://scott.fortmann-roe.com/docs/BiasVariance.html http://www.cnblogs.com/kemaswill/Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习....
分类:其他好文   时间:2015-09-12 16:06:39    阅读次数:246
机器学习基础篇——最大后验概率
最大后验估计(MAP) 最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,最大区别是,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。 ...
分类:其他好文   时间:2015-09-12 13:37:52    阅读次数:147
Andrew Ng机器学习课程10补充
Andrew Ng机器学习课程10补充VC dimension讲到了如果通过最小化训练误差,使用一个具有d个参数的hypothesis class进行学习,为了学习好,一般需要参数d的线性关系个训练样本。到这里需要指出一点,这个结果是基于empirical risk minimization得到的,而对于那些大部分的discriminative的学习算法采用的通过最小化training error或...
分类:其他好文   时间:2015-09-12 12:19:54    阅读次数:135
《机器学习实战》学习笔记:基于朴素贝叶斯的分类方法
概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。...
分类:其他好文   时间:2015-09-12 00:52:33    阅读次数:222
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!