竟然报错了。。 从小娜那儿找到“Anaconda Prompt” 右键图标以管理员身份运行 一样的命令: ...
分类:
其他好文 时间:
2019-08-20 12:33:46
阅读次数:
618
1.项目介绍 数据集包含某年9月份欧洲用户在两天时间里发生的284807宗交易,其中包括492宗诈骗。项目通过描述性分析探索诈骗案的相关特点和模式,再通过机器学习算法创建预测模型、调参,并通过混淆矩阵等方法选择模型。 2.数据清理 2.1导入数据 2.2 数据概览 查看数据总体情况、变量类型、缺失值 ...
分类:
其他好文 时间:
2019-08-04 12:01:01
阅读次数:
113
''' 数据的清洗 1.检测与处理重复值 2.检测与处理缺失值 3.检测与处理异常值 ''' import numpy as np import pandas as pd # 去重:按照A列去重,同时保留第一个数据且在原表去重 data = pd.DataFrame({'A': [1, 1, 2, ... ...
分类:
其他好文 时间:
2019-08-02 09:21:55
阅读次数:
101
1、空格值得删除:空格值得意思为数据文件上下之间没有对齐,,存在空格,不是空缺值 2、缺失值的删除 3、重复值得删除 ...
分类:
编程语言 时间:
2019-07-29 21:30:15
阅读次数:
114
在数据分析中,对缺失值的处理是很关键一步,一般用summary()函数 但通过R语言的VIM包的aggr函数可以做缺失值的图形化展示: ...
分类:
编程语言 时间:
2019-07-22 11:34:38
阅读次数:
284
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的... ...
分类:
编程语言 时间:
2019-07-19 19:06:36
阅读次数:
104
在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。# 一、缺失值处理 特征有缺失值... ...
分类:
其他好文 时间:
2019-07-19 19:01:22
阅读次数:
88
待处理数据的缺失和错误会极大地影响后续的数据分析,因:我们首先需要评估数据质量,进行诸如缺失值发现、极端值诊断、统计分布(样本数据的分布情况)观察和描述性统计(包括均值、方差、标准差、偏度、峰度等)等操作。 在本课节中,老师从北京市空气质量监测数据集入手,系统介绍以上知识点,帮助学员获得洞察数据的能 ...
分类:
其他好文 时间:
2019-07-15 16:02:00
阅读次数:
158
pandas常用操作 data["name1"] 选择data中名字为: name1中的一列 # 数据预处理 data.dropna(axis=0) # 取出掉缺失值 按行 from sklearn.model_selection import train_test_split # Specify ...
分类:
其他好文 时间:
2019-06-23 21:01:14
阅读次数:
132