一、pandas简介 pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的。 1、pandas的主要功能 (1)具备对其功能的数据结构DataFrame、Series (2)集成时间序列功能 (3)提供丰富的数学运算和操作 (4)灵活处理缺失数据 2、安装和引用 二、Seri ...
分类:
其他好文 时间:
2019-02-08 15:54:56
阅读次数:
151
1、isnull():检查是否含有确实数据 2、fillna():填充缺失数据 3、dropna() :删除缺失值 4、replace():替换值 ...
分类:
其他好文 时间:
2019-01-26 17:04:57
阅读次数:
112
您的评价: 4.7 收藏 27收藏 您的评价: 4.7 收藏 27收藏 您的评价: 4.7 收藏 27收藏 您的评价: 4.7 收藏 27收藏 收藏 27收藏 pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也 ...
分类:
其他好文 时间:
2019-01-23 10:41:48
阅读次数:
164
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约,处理过程如图所示。 一、数据清洗 1.缺失值处理:删除、插补、不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) 2.异常值处理 3.数据变换 1)函数变换:将不具有正态分布的数据变换成正态分布的数据 2)规范化/归一化: ...
分类:
编程语言 时间:
2019-01-22 21:51:21
阅读次数:
293
数据挖掘概要 四个步骤,数据探索,数据预处理,挖掘建模,模型评价 数据探索 数据探索 数据质量分析 缺失值 数据特征分析 数据预处理 挖掘建模 模型评价 ...
分类:
编程语言 时间:
2019-01-15 14:14:40
阅读次数:
152
题目1:谈谈缺失值的处理: 答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因多种多样,主要分为机械原因和人为原因。 下面简单讨论缺失值的一般处理方法:总体上来讲有删除法和插补法一、删除法(1)简单删除法: ...
分类:
其他好文 时间:
2019-01-10 17:46:31
阅读次数:
187
前言 上面我们介绍了线性回归, 岭回归, Lasso回归, 今天我们来看看另外一种模型—"逻辑回归". 虽然它有"回归"一词, 但解决的却是分类问题 目录 1. 逻辑回归 2. 优缺点及优化问题 3. 实际案例应用 4. 总结 正文 在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, ...
分类:
编程语言 时间:
2019-01-02 13:32:35
阅读次数:
244
1、基本统计 summary函数:R中的summary函数根据输入的类提供输入的摘要。该函数根据输入对象的类调用各种函数。返回值也取决于输入对象。例如,如果输入是一个由数字数据组成的向量,它将为数据提供平均值、中值、最小值、最大值和四分位数,而如果输入是表格(数字)数据,它将为每一列提供类似的计算。 ...
分类:
其他好文 时间:
2018-12-30 22:08:04
阅读次数:
210
这两篇文章(上,下)已经总结得很好了 http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html 1. 数学基础 1.信息论的信息熵:Entropy 2.基尼不纯度:Gini i ...
分类:
编程语言 时间:
2018-12-26 15:53:58
阅读次数:
183
接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Exc ...
分类:
编程语言 时间:
2018-12-20 14:36:50
阅读次数:
216