数据为DataFrame格式,如下: 1.对每一行,FirstCab的值为空时,Weight的值乘以0.8 方法一(可行):df.loc[df['FirstCab'].isnull(),'Weight'] *= 0.8 方法二(可行):df['Weight'] = np.where(df['Firs ...
分类:
其他好文 时间:
2017-09-12 00:03:29
阅读次数:
366
什么是openpyxl openpyxl是一个第三方的pythonexcel读写库,支持Excel2010 xlsx/xlsm/xltx/xltm文件格式。 openpyxl提供哪些能力? excel的基本读写能力 与pandas和numpy无缝链接能力 excel里图表管理 excel单元格注释管 ...
分类:
编程语言 时间:
2017-09-10 10:14:57
阅读次数:
184
决策树这节中涉及到了很多pandas中的新的函数用法等,所以我单拿出来详细的理解一下这些pandas处理过程,进一步理解pandas背后的数据处理的手段原理。 决策树程序 数据载入 pd.read_csv()竟然可以直接请求URL... ... DataFrame.head()可以查看前面几行的数据 ...
分类:
其他好文 时间:
2017-09-08 19:36:06
阅读次数:
335
loc——通过行标签索引行数据 iloc——通过行号获取行数据 ix——结合前两种的混合索引 具体见http://blog.csdn.net/xw_classmate/article/details/51333646 另外DataFrame[columnsA == columnsB]或者DataFr ...
分类:
其他好文 时间:
2017-09-08 00:19:31
阅读次数:
383
缺失数据(missing data)大部分数据分析应用中非常常见。pd设计目标之一就是让缺失数据的处理任务尽量轻松。 pd 使用浮点值NaN(Not a Number) 表示浮点和非浮点数组中的缺失数据。是一个被检测出来的标识 Na处理方法 1、 滤除缺失数据 只用这种方式丢弃列,只需传入axis ...
分类:
其他好文 时间:
2017-09-07 18:14:29
阅读次数:
364
查看所有单元格是否为NaN DataFrame.isnull() 这个函数会返回一个和原来表格大小相同的表格,原表格值为NaN,此表中为True,否则为False pandas.notnull() 结果恰好是上一个表格的取反 DataFrame.dropna(axis=0, how='any', t ...
分类:
其他好文 时间:
2017-09-07 14:47:16
阅读次数:
130
本章介绍pandas的重要功能,只记录一些重点内容 1、重新索引 pandas对象的一个重要方法是reindex,其作用是创建一个适应用新索引的新对象 输出结果 reindex函数的参数 2、丢弃指定轴上的项 丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可。 drop方法返回的是一个 ...
分类:
其他好文 时间:
2017-09-07 13:36:06
阅读次数:
317
Series(列)方法describe(),对于不同类型的变量的列,有不同返回值(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html) 列方法Series.value_counts( ...
分类:
其他好文 时间:
2017-09-06 23:58:58
阅读次数:
541
本文来源于《利用python进行数据分析》中文版,大家有兴趣可以看原版,入门的东西得脚踏实地哈 1、pandas 数据结构介绍 首先熟悉它的两个主要数据结构,Series 和 DataFrame Series 是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签组成。 Series字符 ...
分类:
其他好文 时间:
2017-09-06 19:55:38
阅读次数:
253
axis=1表示列(1是竖着的),axis=0表示行 在mean()方法中有所不同,mean(axis=0)返回的是各列的平均值 运行结果是 可以理解为对各列的所有行做平均。 ...
分类:
其他好文 时间:
2017-09-06 15:39:53
阅读次数:
232