今日主要内容 1. list(增删改查) 列表可以装大量的数据. 不限制数据类型. 表示方式:[] 方括号中的每一项用逗号隔开 列表和字符串一样.也有索引和切片 # lst = [1, "周杰伦", True, False, ["可口可乐", "雪碧", "芬达"] ]# print(lst) # ...
分类:
其他好文 时间:
2018-07-05 23:19:15
阅读次数:
184
特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处 ...
分类:
其他好文 时间:
2018-07-04 20:10:20
阅读次数:
144
转自: 最大方差和最小协方差解释(线性代数看PCA) PCA降维 ——最大方差和最小协方差联合解释(线性代数看PCA) 注:根据网上资料整理而得,欢迎讨论 机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。因此我们必须对数据进行降维。 降维当然意味着信息的丢失,不过鉴于实际数据本 ...
分类:
其他好文 时间:
2018-07-04 16:03:15
阅读次数:
339
特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:
其他好文 时间:
2018-07-03 16:57:21
阅读次数:
187
下面凌乱的小记一下无监督学习 无监督学习 聚类 降维 聚类:数据相似性 相似性的评估:两个数据样本间的距离 距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦 sklearn 聚类算法 sklearn.cluster,如k means 近邻传播 DBSCAN等 标准的数据输入格式:[样本个数,特征个数] ...
分类:
其他好文 时间:
2018-07-02 20:48:48
阅读次数:
195
在机器学习的过程中,我们经常会遇见过拟合的问题。而输入数据或features的维度过高就是导致过拟合的问题之一。。维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。所有出现了很多降维的方法。今天我们要讨论的就是LDA降维。 LDA降维的思路是:如果两类数据线性可分, ...
分类:
编程语言 时间:
2018-06-29 14:17:04
阅读次数:
129
01背包问题 有N件物品和一个容量为C的背包。第i件物品的费用是w[i],价值是v[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大。 //w[i] 表示物品i的重量 //v[i] 表示物品i的价值 //C 表示背包的容量 //dp[i][c]表示前i件物品恰放入一个 ...
分类:
其他好文 时间:
2018-06-28 22:50:51
阅读次数:
195
PCA降维的大致思想就是: 挑选特征明显的、显得比较重要的信息保留下来。 那么关键就是【特征明显的,重要的信息】如何选择? 选择标准有两个:1: 同一个维度内的数据,方差大的比较明显,因为方差大表示自己和平均水平差异大,有个性,降维后也最可能分的开~2: 两个不同维度间关联度越小越好,因为关联度小表 ...
分类:
其他好文 时间:
2018-06-21 22:35:53
阅读次数:
183
https://doi.org/10.1016/j.coisb.2017.12.008 Yale university 2017年12月发布的基于机器学习中流形学习的单细胞降维降噪处理优化。 The manifold learning: 假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是 ...
分类:
其他好文 时间:
2018-06-18 16:02:09
阅读次数:
365
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SV ...
分类:
其他好文 时间:
2018-06-15 21:47:58
阅读次数:
191