码迷,mamicode.com
首页 > 其他好文 > 详细

pandas

时间:2019-07-16 10:47:49      阅读:86      评论:0      收藏:0      [点我收藏+]

标签:之一   可视化   密度   数据类型   csv   特殊   mysql   类型   特殊字符   

三大对象

1.DataFrame(index,  columns ,values)

  1)先从文件(excel,csv,mysql)中读取,或者自己制造一个DataFrame对象

  2)查看数据

    查看数据的形状(几行几列)

    查看每一列的数据类型,数据中是否有空值(行、列),查看每一列和标签的关系(离散-柱状图,连续-密度图或者子状图),两列之间的相关度,查看整个的数据分布(最小,最大,均值,标准差等)目的之一是找出异常值。

  3)清洗数据

    删除

      列(如序号列)、行、空值的列(如:一列中绝大多少是空值)

    替换

      空值(一列中极少数空值,替换方法许多,如均值(连续型如年龄),众数(离散型,如性别),线性差值等),去掉空格/特殊字符,数据类型转换,列名,索引名

  4)整理

      排序:列的值,索引

      修改结构:列变成索引

      分组:索引,列

        注意:分组要做数据统计   (透视表-pivot-table、 交叉表)

      应用函数

        列

  5)数据合并

    多个DateFrame 按照不同的轴合并

  6)数据统计

    count,sum,max,min  mean

  7)可视化

    

  

2.Series

3.Panel

pandas

标签:之一   可视化   密度   数据类型   csv   特殊   mysql   类型   特殊字符   

原文地址:https://www.cnblogs.com/evan0925/p/11193178.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!