码迷,mamicode.com
首页 >  
搜索关键字:缺失值    ( 264个结果
数据挖掘概念与技术
3.数据预处理: 在现实社会中的数据往往存在噪声数据、缺失值和不一致数据的问题。为了提高数据挖掘工作的效率和准确性,需要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操作。 数据质量的三个要素是:准确性、完整性和一致性。 3.1 数据清理 数据清理试图填充缺失值、光滑噪声并识别离群 ...
分类:其他好文   时间:2020-02-26 01:19:33    阅读次数:75
数据预处理-缺失值
一.画图查看缺失值分布情况 方法1 import missingno as msno # pip install missingno msno.matrix(train_data); 方法2 缺失值高亮 # matplotlib画缺失值 plt.imshow(train_data.isna(),as ...
分类:其他好文   时间:2020-02-20 22:18:31    阅读次数:140
数据探索
一.查看特征数据类型,有没有文本型变量需要处理 train_data.info() train_data.describe(include="all",percentiles=[0.5]).T.round(2) 二.查看缺失值数量或占比 三.查看标签分布 # 查看标签分布 df['label'].v ...
分类:其他好文   时间:2020-02-20 22:10:48    阅读次数:52
汽车金融评分卡
项目目的:利用车贷金融数据建立评分卡,并尝试多次迭代观察不同行为对模型,以及建模中间过程产生哪些影响。 首先是标准化导入需要使用的工具 import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.u ...
分类:其他好文   时间:2020-02-19 23:56:41    阅读次数:148
03_特征清洗
1.缺失值 当数据缺失时出现的问题: 当有缺失值时有些算法没法work 即使是处理缺失数据的算法,如果不进行处理,模型也会导致不准确的结论 缺失机制: Missing Completely as Random:如果所有观测值丢失的概率相同,则变量完全随机丢失(MCAR)。当数据是MCAR时,那些丢失 ...
分类:其他好文   时间:2020-02-18 14:39:25    阅读次数:66
pandas基础--缺失数据处理
一下代码的前提:import pandas as p 缺失数据是数据分析中的常见现象。pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已。python内置的None值也会被当作NA处理。 1 >>> string_data = ...
分类:其他好文   时间:2020-02-03 18:40:22    阅读次数:70
pandas基础--基本功能
本节介绍操作Series和DataFrame中的数据的基本手段。 1.1 重新索引 重新索引reindex,其作用是创建一个适应新索引的新对象。调用reindex将会根据新索引进行重排,如果某个索引值当前不存在,就引入缺失值。 1 >>> obj = pd.Series([4.5, 7.2, -5. ...
分类:其他好文   时间:2020-02-03 09:26:05    阅读次数:88
Spark Imputer 归因估算器 补全缺失值
1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前,Imputer不支持分类特征,并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue(custom_value) ...
分类:其他好文   时间:2020-01-18 14:42:29    阅读次数:150
pandas-python入门基操
import numpy as npimport pandas as pd# # 目录# 生成数据# 查看数据# 选择# 缺失值# 运算-apply# 合并# 分组# 重塑-reshape# 数据透视表# 时间序列# 类别-Category# csv数据输入/输出# s = pd.Series([1 ...
分类:编程语言   时间:2020-01-11 00:10:06    阅读次数:99
任务7,深挖K近邻
任务7 深挖K近邻 一, 缺失值的处理 处理缺失值的方法:需要理解数据,察觉到哪些数据是必要的哪些不必要 1, 删除法: (1) 删整个列 (2) 删整行(丢弃此记录) 2, 填补法 (1) 用平均值来填补缺失值 (2) 均值,中位数填补 二,特征编码 ——机器学习的核心是建模,基础是数据,且输入一 ...
分类:其他好文   时间:2020-01-09 20:54:21    阅读次数:78
264条   上一页 1 ... 3 4 5 6 7 ... 27 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!