Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用panda ...
分类:
编程语言 时间:
2016-11-13 16:07:48
阅读次数:
516
摘要 一、创建对象 二、查看数据 三、选择和设置 四、缺失值处理 五、相关操作 六、聚合 七、重排(Reshaping) 八、时间序列 九、Categorical类型 十、画图 十一、导入和保存数据 ...
分类:
编程语言 时间:
2016-11-06 02:21:39
阅读次数:
425
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件,python版本必须是2.7以上。 linux首先安装依赖包 windows安装pip即可,具体方法参考pip官网 ht ...
分类:
编程语言 时间:
2016-11-04 13:55:22
阅读次数:
352
本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、 创建对象可以通过 Data Structure Intro Setio... ...
分类:
编程语言 时间:
2016-11-03 14:08:18
阅读次数:
551
本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归。 1. Ridge回归的损失函数 在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适合用 Ridge回归。如果对什么是Ridge回归还完全不清楚的建议阅读我这篇文章。 线性回归原理小结 ...
分类:
其他好文 时间:
2016-11-02 17:26:21
阅读次数:
505
一个机器学习竞赛中,题目大意如下,本文主要记录数据处理过程,为了模型训练,第一步需要将中文数据集处理为数值类别数据集保存。 目标:原始数据集是含大量中文的xls格式的表格,目标处理为数值类别的csv表格。 原始数据集部分切片,如下格式: 目标数据集为,处理成对应的数值类别格式,如下: 解决思路:(处 ...
分类:
其他好文 时间:
2016-11-02 14:06:07
阅读次数:
2222
使用pandas进行数据清洗 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据清洗 数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两 ...
分类:
其他好文 时间:
2016-11-02 10:23:26
阅读次数:
752
原文链接:http://www.datastudy.cc/to/69 今天有个同学问到,notin的逻辑,想用SQL的selectc_xxx_sfromt1leftjoint2ont1.key=t2.keywheret2.keyisNULL在Python中的逻辑来实现,实现了leftjoin了(直接用join方法),但是不知道怎么实现wherekeyisNULL。 其实,实现notin的逻辑..
分类:
其他好文 时间:
2016-11-01 11:51:56
阅读次数:
1799
对于像深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。 1. 获取数据,定义问题 没有数据,当然没法研究机器学习啦。:) 这里我们用UCI大学公开的机器学习数据来跑线性回归。 数据的介绍在这: http://ar ...
分类:
其他好文 时间:
2016-10-31 18:49:31
阅读次数:
226