[Python][MachineLeaning]Python Scikit-learn学习笔记1-Datasets&Estimators

时间：2014-07-16 19:09:46 阅读：263 评论：0 收藏：0 [点我收藏+]

Datasets

标准的数据集格式为一组多维特征向量组成的集合。数据集的标准形状(shape)为二维数组(samples, features)，其中samples表示数据集大小，features表示其中特征向量的维数。

使用时可使用shape方法查看数据集

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> data = iris.data
>>> data.shape
(150, 4)

表示iris数据集含有150个数据样本，每个数据样本为一个4维的特征向量。

对于不具有标准形状的数据集，需要对其进行处理，将其转换为形状标准的数据集以进行处理。

以Scikit自带的digits数据集为例，其保存的是1797个8x8的灰度值图像

>>> digits = datasets.load_digits()
>>> digits.images.shape
(1797, 8, 8)

需要利用reshape函数将其中的每幅图像都表示为一个64维的特征向量

>>> data = digits.images.reshape((digits.images.shape[0], -1))

estimator是一个宽泛的概念，它可以是分类器(classification)、回归器(regression)、聚类算法(clustering algorithm)或者特征提取器。

所有的estimator对象都提供fit方法来接受数据

>>> estimator.fit(data)

estimator的参数都可以在初始化时直接指定

>>> estimator = Estimator(param1=1, param2=2)
>>> estimator.param1
1

利用estimator根据训练集进行拟合所得的参数都以_结尾

>>> estimator.estimated_param_

原文地址：http://www.cnblogs.com/shelvenzhou/p/3844750.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行