一、读写CSV数据: 二、数据汇总和统计:pandas(大型数据集分析、数据归组、统计分析等) ...
分类:
编程语言 时间:
2016-08-11 22:27:15
阅读次数:
248
本节介绍Series和DataFrame中的数据的基本手段 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 ''' Created on 2016-8-10 @author: xuzhengzhu ''' ''' Created on 2016-8-10 @aut ...
分类:
编程语言 时间:
2016-08-11 11:18:42
阅读次数:
176
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型)。DateFrame既有行索引也有列索引,可以被看作为由Series组成的字典。 构建DataFrame: 1、直接传入一个由等长列表或numpy数组组成的字典 ''' Created on ...
分类:
编程语言 时间:
2016-08-10 17:40:20
阅读次数:
268
pandas.read_csv¶ pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False ...
分类:
其他好文 时间:
2016-08-10 00:41:56
阅读次数:
2468
pandas.DataFrame.plot¶ DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_ ...
分类:
其他好文 时间:
2016-08-10 00:32:46
阅读次数:
2165
网上看到了关于pandas的用法,虽然练习了不少,但是还是有些不是能记得很清楚。所以就写下来了。 chapter1讲的是读取CSV文件。如下代码: 其中,关于read_csv的用法,还没有进行深入的了解。之后下一篇会做一个专门的讲解。 其中,sep代表分隔符,encoding是指明编码,如果文件中包 ...
分类:
其他好文 时间:
2016-08-09 23:25:05
阅读次数:
450
matplotlib是强大的python 绘图包。pandas 是强大的python分析工具包。numpy是强大的python统计包。 都超级好用,而且最近开始动手实践机器学习算法了。特此备注一下安装过程: ----------------------------------------- 1. m ...
分类:
其他好文 时间:
2016-08-08 20:58:37
阅读次数:
567
在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这 ...
分类:
编程语言 时间:
2016-08-08 17:25:16
阅读次数:
242
pandas 对象拥有一些常用的数学和统计方法。 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索引: 还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数 ...
分类:
编程语言 时间:
2016-08-07 18:36:04
阅读次数:
141
一、reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序。 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行。 不想用缺失值,可以用 fill_value 参数指定填充值。 例如: fill_value 会让所有的缺失值都填充为同一个值 ...
分类:
编程语言 时间:
2016-08-07 12:21:45
阅读次数:
637