码迷,mamicode.com
首页 >  
搜索关键字:pca knn    ( 1752个结果
关于 sklearn.decomposition.KernelPCA的简单介绍
注意1:书上说consin PCA 比缺省的linear PCA要好,是不是consin PCA更紧致,数据不发散. 始终搞不懂什么时候用,什么时候不用 fit(X, y=None)Fit the model from data in X.ParametersX: array-like, shape
分类:其他好文   时间:2016-03-19 12:41:47    阅读次数:1156
【机器学习详解】KNN分类的概念、误差率及其问题
KNN(K-Nearest Neighbors algorithm)是一种非参数模型算法。在训练数据量为N的样本点中,寻找最近邻测试数据x的K个样本,然后统计这K个样本的分别输入各个类别w_i下的数目k_i,选择最大的k_i所属的类别w_i作为测试数据x的返回值。当K=1时,称为最近邻算法,即在样本数据D中,寻找最近邻x的样本,把x归为此样本类别下。常用距离度量为欧式距离。在二维平面上要预测中间'*'所属颜色,采用K=11时的情况,其中有4黑色,7个蓝色,即预测'*'为蓝色。 右图所示:当K=1时,即最近邻...
分类:其他好文   时间:2016-03-18 17:56:25    阅读次数:262
KNN及其改进算法的python实现
一、 马氏距离 我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。 如果用dij表示第i个样...
分类:编程语言   时间:2016-03-11 11:38:59    阅读次数:713
PCA降维
1.1算法流程 假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scali...
分类:其他好文   时间:2016-03-11 10:24:30    阅读次数:233
近邻搜索算法
最近邻搜索(Nearest Neighbor Search) Name of the problem: nearest neighbors, k nearest neighbors (kNN, k-NN), nearset neighbor search, proximity search, sim
分类:编程语言   时间:2016-03-07 22:22:51    阅读次数:206
[机器学习笔记]PCA简介以及python实现
主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。这里的“信息”指的是数据所包含的有用的信息。 主要思路:从原始特征中计算出一组按照“重要性”从大到小排列的新特征,它们是原始特征
分类:编程语言   时间:2016-03-03 22:45:12    阅读次数:264
k-近邻算法
听朋友说machine Learning 很牛,特地买了本《机器学习实战》,了解机器学习,顺便学习python。。 第一个算法是kNN,很容易理解,简单实用,但是存储和计算的复杂度有点高,而且无法给出数据的内在含义。 书中介绍的两个实例,让我感觉机器学习确实很实用,以下是从《机器学习实战》中整理摘抄
分类:编程语言   时间:2016-03-01 22:20:58    阅读次数:376
KNN算法
KNN算法的介绍请参考: http://blog.csdn.net/zouxy09/article/details/16955347 统计学习方法里面给出了KD Tree的算法介绍,按照书上的进行了实现: # -*- coding: utf-8 -*- from operator import it
分类:编程语言   时间:2016-03-01 00:44:25    阅读次数:323
样本方差的无偏估计与(n-1)的由来
原文出处: http://blog.sina.com.cn/s/blog_c96053d60101n24f.html 在PCA算法中用到了方差,协方差矩阵,其中方差公式为,协方差矩阵公式为,当时不明白为什么除的不是m,而是m-1,那么想要知道为何,下面就是你想要的答案。 假设X为独立同分布的一组随机
分类:其他好文   时间:2016-02-14 06:48:17    阅读次数:196
数据挖掘领域十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive B
分类:编程语言   时间:2016-02-06 10:22:48    阅读次数:256
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!