码迷,mamicode.com
首页 >  
搜索关键字:pca knn    ( 1752个结果
【转】LDA-linear discriminant analysis
分类问题也可以用降维来理解,比如一个D维的数据点x,我们可以采用下面的映射进行线性的降维,y=θTx在计算出y后,就可以选择一个阈值h,来进行分类。正如我们在前面的PCA模型中看到的,降维会有信息的损失,可能会在降维过程中,丢失使数据可分的特征,导致分类的效果不理想。那采用什么样的降维方式,可以尽量...
分类:其他好文   时间:2014-12-13 23:16:17    阅读次数:329
MLiA.第2章.k-近邻算法(kNN)
简单地说,k-近邻算法是采用测量不同特征值之间的距离方法进行分类。优缺点:优点精确度高、对异常值不敏感、无数据输入假定。缺点计算复杂度高、空间复杂度高。使用数据范围数值型和标称型。例子:电影名称打斗镜头接吻镜头已知电影类型California3104爱情片Gongfu995动作片算法伪代码:对未知类...
分类:编程语言   时间:2014-12-12 13:16:52    阅读次数:183
PCA数据降维
Principal Component Analysis算法优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:不一定需要,且可能损失有用的信息适用数据类型:数值型数据算法思想:降维的好处:使得数据集更易使用降低很多算法计算开销去除噪声使得结果易懂主成分分析(principal componen...
分类:其他好文   时间:2014-12-11 00:06:46    阅读次数:259
非监督的降维算法--PCA
PCA是一种非监督学习算法,它能够在保留大多数有用信息的情况下,有效降低数据纬度。它主要应用在以下三个方面:1. 提升算法速度2. 压缩数据,减小内存、硬盘空间的消耗3. 图示化数据,将高纬数据映射到2维或3维总而言之,PCA干的事情就是完成一个将原始的n维数据转化到k维的映射。其中,k<n它的核心...
分类:编程语言   时间:2014-12-10 17:44:02    阅读次数:256
R语言与数据分析之三:分类算法2
上期与大家分享的传统分类算法都是建立在判别函数的基础上,通过判别函数值来确定目标样本所属的分类,这类算法有个最基本的假设:线性假设。今天继续和大家分享下比较现代的分类算法:决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。 首先和小伙伴介绍下数据挖掘领域比较经典的Knn(nearest neighbor)算法(最近邻算法) 算法基本思想: Step1:计算出待测样本与学习集中所有点...
分类:编程语言   时间:2014-12-09 10:40:01    阅读次数:322
机器学习实战——kNN分类器
惰性学习法:简单的存储数据,一直等待,直到给定一个测试元组时才进行泛化,根据对存储的元组的相似性进行分类。kNN(k近邻)分类方法于20世纪50年代提出,由于计算密集型算法,因此到60年代之后随着计算能力增强后才逐步应用。 kNN基于类比学习,将给定的测试元组表示为n维空间中的一个点,n代表属性数目。然后使用某种距离度量方式来寻找与给定测试元组最近的k个训练元组,对这个k个训练元组的类别进行统计...
分类:其他好文   时间:2014-12-08 17:47:16    阅读次数:262
主成分分析法(PCA)答疑
问:为什么要去均值?1、我认为归一化的表述并不太准确,按统计的一般说法,叫标准化。数据的标准化过程是减去均值并除以标准差。而归一化仅包含除以标准差的意思或者类似做法。2、做标准化的原因是:减去均值等同于坐标的移动,把原始数据点的重心移到和原点重合,这样利于很多表达,比如数据的协方差矩阵可以写成XX'...
分类:其他好文   时间:2014-12-08 00:34:02    阅读次数:303
PCA学习总结
1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:其他好文   时间:2014-12-07 06:28:10    阅读次数:171
【机器学习算法实现】kNN算法__手写识别——基于Python和NumPy函数库
kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算法之一,算法思想很简单:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。 分类过程如下: 1 首先我们事先定下k值(就是指k近邻方法的k的大小,代表对于一个待分类的数据点,我们要寻找几个它的邻居)。这边为了说明问题,我们取两个k值,分别为3和5; 2 根据事先确定的距离度量公式(如:欧氏距离),得出待分类数据点和所有已知类别的样本点中,距离最近的k个样本。 3 统...
分类:编程语言   时间:2014-12-06 08:51:50    阅读次数:365
[降维] PCA 主成分分析
其实早该整理一下PCA了,怎奈一直没有时间,可能是自己对时间没有把握好吧,下面进入正题。降维的概念所谓降维,就是降低数据的维数。在机器学习中尤其常见,之前做过对一幅图片提取小波特征,对于一幅大小为800*600的图片,如果每个点提取五个尺度、八个方向的特征,那么每一个像素点提取40个特征,那么一副图...
分类:其他好文   时间:2014-12-05 23:59:57    阅读次数:397
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!