降维的作用: 高维数据特征个数多,特征样本多,维度也很大,计算量就会很大,调参和最后评估任务时,计算量非常大,导致效率低。 高位数据特征特别多,有的特征很重要,有的特征不重要,可以通过降维保留最好、最重要的特征。 PCA是无类别信息,不知道样本属于哪个类,用PCA,通常对全体数据操作。 LDA有类别 ...
分类:
其他好文 时间:
2018-07-08 12:40:47
阅读次数:
209
在C++的继承中,基类和派生类的指针,引用的题目我们都见的很多。前面我也总结过基类指针和派生类指针调用函数的机制。 将派生类引用或指针转换为基类引用或指针被称为向上强制转换(upcasting)即基类指针指向了派生类对象,或者将派生类对象强制转换成了基类指针指向了 与向上强制转换相反,将基类指针或引 ...
分类:
其他好文 时间:
2018-07-07 20:36:30
阅读次数:
167
(1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM。 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 ...
分类:
其他好文 时间:
2018-07-07 20:23:41
阅读次数:
177
原理 KNN算法,又叫K近邻算法。就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为: 1)计算测试数据与各个训练数据之间的距离; 2) ...
分类:
编程语言 时间:
2018-07-06 23:29:00
阅读次数:
208
前半部分是简介, 后半部分是案例 KNN近邻算法: 简单说就是采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN) 优点: 精度高、对异常值不敏感、无数据输入假定 缺点:时间复杂度高、空间复杂度高 1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小 ...
分类:
编程语言 时间:
2018-07-06 22:25:59
阅读次数:
200
KNN 算法介绍: 缺点: 对一个算法的掌握无非知其然,也知其所以然 使用scikit中的KNN: 自己实现KNN 分类器: 调用: 超参数和模型参数: 如何寻找好的超参数 明可夫斯基距离 当p的值为1时,则是曼哈顿距离,当p为2时则是欧拉距离 数据归一化: 测试数据归一化 使用StandardSc ...
分类:
其他好文 时间:
2018-07-06 01:32:46
阅读次数:
236
1. 安装依赖环境 # yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel ...
分类:
编程语言 时间:
2018-07-05 21:29:21
阅读次数:
173
转自: 最大方差和最小协方差解释(线性代数看PCA) PCA降维 ——最大方差和最小协方差联合解释(线性代数看PCA) 注:根据网上资料整理而得,欢迎讨论 机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。因此我们必须对数据进行降维。 降维当然意味着信息的丢失,不过鉴于实际数据本 ...
分类:
其他好文 时间:
2018-07-04 16:03:15
阅读次数:
339
特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:
其他好文 时间:
2018-07-03 16:57:21
阅读次数:
187
一、数据 获取数据 import numpy as np from sklearn.datasets import fetch_mldata mnist = fetch_mldata("MNIST original") 查看数据 mnist # 输出: {'COL_NAMES': ['label', ...
分类:
其他好文 时间:
2018-07-03 15:20:15
阅读次数:
599