What 用二进制表示机器状态。 使用N位状态寄存器来对N个状态进行编码 参考链接 例如: 自然状态码为:000,001,010,011,100,101 独热编码为:000001,000010,000100,001000,010000,100000 Why 在机器学习中,经常有一些值为离散的属性,比 ...
分类:
其他好文 时间:
2017-07-29 18:17:23
阅读次数:
381
文章信息 本文地址:http://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html 本文作者:Francois Chollet 概述 在本文中,我们将提供一些面向小数据集(几 ...
分类:
其他好文 时间:
2017-07-28 09:43:58
阅读次数:
621
本文參考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包含四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。哇哈哈。还是关注预处理比較靠谱。。。。 重要的不翻译:scikit-le ...
分类:
其他好文 时间:
2017-07-24 10:07:54
阅读次数:
419
知识点: 逻辑斯蒂回归分类器 训练数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data 数据预处理 打开ipython网页解 ...
分类:
其他好文 时间:
2017-07-22 13:18:25
阅读次数:
344
转自:数据标准化/归一化normalization 这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵 ] [矩阵论:向量范数和矩阵范数 ] 数据的标准化(normalization)和归一化 数据的 ...
分类:
其他好文 时间:
2017-07-19 23:21:24
阅读次数:
3662
http://www.cnblogs.com/chaosimple/p/4153167.html 其中介绍了sklearn.preprocessing.StandardScaler类,使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。 ...
分类:
其他好文 时间:
2017-07-17 13:19:12
阅读次数:
275
一、相关统计量 mean平均值 忽略NA求均值 未完待续。。。。。 ...
分类:
其他好文 时间:
2017-07-11 21:13:49
阅读次数:
174
在进行python数据分析的时候,首先要进行数据预处理。 有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。 目前了解到的大概有三种方法: 1,通过LabelEncoder来进行快速的转换; 2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限; 3 ...
分类:
其他好文 时间:
2017-07-05 01:15:12
阅读次数:
1550
导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别。本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程。文中包含了一些常见问题的处理方式,例如缺失值的处理、非数 ...
分类:
其他好文 时间:
2017-07-01 12:43:10
阅读次数:
419
一,引言 降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。 降维具有如下一些优点: ...
分类:
其他好文 时间:
2017-06-25 12:45:24
阅读次数:
163