码迷,mamicode.com
首页 > 其他好文 > 详细

工作流程

时间:2020-02-25 20:34:44      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:database   没有   series   style   索引   根据   arc   hive   特定   

1.获取   ------不管是什么格式,一旦锁定了某种数据,那么了解该数据中有什么以及没有什么,就变得非常重要了。

import urllib.request

 

2.检查和探索  ------主要的目标是合理 地检查数据,而实现这一点的最好办法是发现不可能或几乎不可能的事情。举个例子, 如果数据具有唯一的标识符,检查是否真的只有一个;如果数据是基于价格的,检查是 否总为正数;无论数据是何种类型,检查最极端的情况。

import pandas as pd 

  在 Pandas 的术语中,数据列称为系列(Series),而表格称为 数据框(DateFrame)。

  数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  df[‘sepal length‘]                                         列输出

  df.ix[:3, :2]                                        列表切片

  df[‘class‘].unique()                                      将根据某些特定的条件,来选择数据的一个子集

  df[df[‘class‘]==‘Iris-virginica‘]                                 可以看到数据框只包含 Iris-virginica 类的 数据

  virginica = df[df[‘class‘]==‘Iris-virginica‘].reset_index(drop=True)                将这些数据保存为一个 新的数据框并重置索引

  df[(df[‘class‘]==‘Iris-virginica‘)&(df[‘petal width‘]>2.2)]                     使用两个条件选择数据

  df.describe()                                       从虹膜数据集中获取一些快速的描述性统计数据

  df.describe(percentiles=[.20,.40,.80,.90,.95])                         传入自定义的百分比

  df.corr()                                         检查这些特征之间是否有任何相关性。

                                             还可以 切换到 Kendall‘s tau 或 Spearman‘s 秩相关系数(例如,.corr(method="spearman")                                              或.corr(method="kendall"))。 

  

  可视化 

  

3.清理和准备   ------将数据转化为适合于模型使用的格式。

4.建模  ------选择适当的算法,并在数据上训练出一个模型。

5.评估  ------模型的预测和实际值到底有多接近。

6.部署

工作流程

标签:database   没有   series   style   索引   根据   arc   hive   特定   

原文地址:https://www.cnblogs.com/kt-xb/p/12363134.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!