注意1:书上说consin PCA 比缺省的linear PCA要好,是不是consin PCA更紧致,数据不发散. 始终搞不懂什么时候用,什么时候不用 fit(X, y=None)Fit the model from data in X.ParametersX: array-like, shape
分类:
其他好文 时间:
2016-03-19 12:41:47
阅读次数:
1156
KNN(K-Nearest Neighbors algorithm)是一种非参数模型算法。在训练数据量为N的样本点中,寻找最近邻测试数据x的K个样本,然后统计这K个样本的分别输入各个类别w_i下的数目k_i,选择最大的k_i所属的类别w_i作为测试数据x的返回值。当K=1时,称为最近邻算法,即在样本数据D中,寻找最近邻x的样本,把x归为此样本类别下。常用距离度量为欧式距离。在二维平面上要预测中间'*'所属颜色,采用K=11时的情况,其中有4黑色,7个蓝色,即预测'*'为蓝色。
右图所示:当K=1时,即最近邻...
分类:
其他好文 时间:
2016-03-18 17:56:25
阅读次数:
262
一、 马氏距离 我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。 如果用dij表示第i个样...
分类:
编程语言 时间:
2016-03-11 11:38:59
阅读次数:
713
1.1算法流程 假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scali...
分类:
其他好文 时间:
2016-03-11 10:24:30
阅读次数:
233
最近邻搜索(Nearest Neighbor Search) Name of the problem: nearest neighbors, k nearest neighbors (kNN, k-NN), nearset neighbor search, proximity search, sim
分类:
编程语言 时间:
2016-03-07 22:22:51
阅读次数:
206
主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。这里的“信息”指的是数据所包含的有用的信息。 主要思路:从原始特征中计算出一组按照“重要性”从大到小排列的新特征,它们是原始特征
分类:
编程语言 时间:
2016-03-03 22:45:12
阅读次数:
264
听朋友说machine Learning 很牛,特地买了本《机器学习实战》,了解机器学习,顺便学习python。。 第一个算法是kNN,很容易理解,简单实用,但是存储和计算的复杂度有点高,而且无法给出数据的内在含义。 书中介绍的两个实例,让我感觉机器学习确实很实用,以下是从《机器学习实战》中整理摘抄
分类:
编程语言 时间:
2016-03-01 22:20:58
阅读次数:
376
KNN算法的介绍请参考: http://blog.csdn.net/zouxy09/article/details/16955347 统计学习方法里面给出了KD Tree的算法介绍,按照书上的进行了实现: # -*- coding: utf-8 -*- from operator import it
分类:
编程语言 时间:
2016-03-01 00:44:25
阅读次数:
323
原文出处: http://blog.sina.com.cn/s/blog_c96053d60101n24f.html 在PCA算法中用到了方差,协方差矩阵,其中方差公式为,协方差矩阵公式为,当时不明白为什么除的不是m,而是m-1,那么想要知道为何,下面就是你想要的答案。 假设X为独立同分布的一组随机
分类:
其他好文 时间:
2016-02-14 06:48:17
阅读次数:
196
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive B
分类:
编程语言 时间:
2016-02-06 10:22:48
阅读次数:
256