PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的 ...
分类:
其他好文 时间:
2016-10-11 11:28:50
阅读次数:
323
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的 ...
分类:
其他好文 时间:
2016-07-11 18:35:17
阅读次数:
143
利用 t-SNE 高维数据的可视化 具体软件和教程见: http://lvdmaaten.github.io/tsne/ 简要介绍下用法: % Load data load ’mnist_train.mat’ ind = randperm(size(train_X, 1)); train_X = t ...
分类:
其他好文 时间:
2016-06-01 19:44:03
阅读次数:
1330
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。
当然我并不打算把文章写成纯数...
分类:
其他好文 时间:
2016-05-28 17:47:16
阅读次数:
350
支持向量机SVM
支持向量机(support vector machine,SVM)是由Cortes和Vapnik在1995年提出的,由于其在文本分类和高维数据中强大的性能,很快就成为机器学习的主流技术,并直接掀起了“统计学习”在2000年前后的高潮,是迄今为止使用的最广的学习算法。
本篇将要简要的介绍一下SVM,如有错误请批评指正,共同学习。本文主要分为以下几个部分:
SV...
分类:
系统相关 时间:
2016-05-12 12:45:35
阅读次数:
355
机器学习课堂笔记(十四)
使用低维数据来近似表示高维数据
通过数据可视化来获得降维数据的物理意义
Σ\Sigma和∑ni=1\sum_{i=1}^n不同
Σ\Sigma的计算对于所有的样本值
此时计算的是一个样本值x(i)x^{(i)}的降维z(i)z^{(i)}
保留99%的差异性
[U,S,V] = svd(Sigma)调用一次
使用训练集运行PCA,这样...
分类:
其他好文 时间:
2016-05-07 09:47:06
阅读次数:
117
kNN-------k-邻近算法
1.kNN是non-parametric分类器,既不做分布式假设,直接从数据估计概率密度;
2.kNN不适用于高维数据
优点:
1.无需估计参数,无需训练;
2.特别适合于多分类问题(对象具有多个标签)。
缺点:
1.当样本容量不平衡是,输入有个新样本,该样本的K个邻值中大容量样本占多数,对分类不利;
2.计算量过大,需要计算待分类...
分类:
编程语言 时间:
2016-05-07 08:07:46
阅读次数:
231
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。
当然我并不打算把文章写成...
分类:
其他好文 时间:
2016-04-22 19:50:00
阅读次数:
241
K近邻(KNN):分类算法 * KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning. * KNN不适用于高维数据(curse of dimension) * Machine Learning的Python库很多,比如 ...
分类:
编程语言 时间:
2016-04-05 14:06:43
阅读次数:
229
运用PCA对高维数据进行降维,有一下几个特点: (1)数据从高维空间降到低维,因为求方差的缘故,相似的特征会被合并掉,因此数据会缩减,特征的个数会减小,这有利于防止过拟合现象的出现。但PCA并不是一种好的防止过拟合的方法,在防止过拟合的时候,最好是对数据进行正则化; (2)使用降维的方法,使算法的运 ...
分类:
其他好文 时间:
2016-03-30 09:52:43
阅读次数:
258