工作流程

时间：2020-02-25 20:34:44 阅读：60 评论：0 收藏：0 [点我收藏+]

标签：database 没有 series style 索引根据 arc hive 特定

1.获取 ------不管是什么格式，一旦锁定了某种数据，那么了解该数据中有什么以及没有什么，就变得非常重要了。

import urllib.request

2.检查和探索 ------主要的目标是合理地检查数据，而实现这一点的最好办法是发现不可能或几乎不可能的事情。举个例子，如果数据具有唯一的标识符，检查是否真的只有一个；如果数据是基于价格的，检查是否总为正数；无论数据是何种类型，检查最极端的情况。

import pandas as pd

　　在 Pandas 的术语中，数据列称为系列（Series），而表格称为数据框（DateFrame）。

　　数据集：https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

　　df[‘sepal length‘] 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　列输出

　　df.ix[:3, :2] 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　列表切片

　　df[‘class‘].unique() 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　将根据某些特定的条件，来选择数据的一个子集

　　df[df[‘class‘]==‘Iris-virginica‘] 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　可以看到数据框只包含 Iris-virginica 类的数据

　　virginica = df[df[‘class‘]==‘Iris-virginica‘].reset_index(drop=True) 　　　　　　　　　　　　　　　将这些数据保存为一个新的数据框并重置索引

　　df[(df[‘class‘]==‘Iris-virginica‘)&(df[‘petal width‘]>2.2)]　　　　　　　　　　　　　　　　　　　　使用两个条件选择数据

　　df.describe()　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　从虹膜数据集中获取一些快速的描述性统计数据

　　df.describe(percentiles=[.20,.40,.80,.90,.95])　　　　　　　　　　　　　　　　　　　　　　　传入自定义的百分比

　　df.corr()　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　检查这些特征之间是否有任何相关性。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　还可以切换到 Kendall‘s tau 或 Spearman‘s 秩相关系数（例如，.corr(method="spearman") 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　或.corr(method="kendall")）。　

　　可视化

3.清理和准备 ------将数据转化为适合于模型使用的格式。

4.建模 ------选择适当的算法，并在数据上训练出一个模型。

5.评估 ------模型的预测和实际值到底有多接近。

6.部署

工作流程

标签：database 没有 series style 索引根据 arc hive 特定

原文地址：https://www.cnblogs.com/kt-xb/p/12363134.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行