Pandas选择:数据访问(标签、特定值、布尔索引等)缺失值处理:对缺失数据行进行删除或填充重复值处理:重复值的判断与删除异常值处理:清除不必要的空格和极端、异常数据相关操作:描述性统计、Apply、直方图等合并:符合各种逻辑关系的合并操作分组:数据划分、分别执行函数、数据重组Reshaping:快 ...
分类:
其他好文 时间:
2018-08-20 22:56:40
阅读次数:
214
数据预处理阶段暂时先告一段落,现在来看看如何设计表之间的关联关系。因此需要一些专门的工具来设计和处理表之间的关系,这里我们选用工具PowerDesigner。由于我用的数据库是MySQL,其他数据库也是大同小异,下面比较详细的介绍如何向PowerDesigner中导入MYSQL数据库结构。 第一步, ...
分类:
数据库 时间:
2018-08-09 10:10:30
阅读次数:
181
数据预处理 在使用 TensorFlow 作为后端的时候,在 Keras 中,CNN 的输入是一个4维数组(也被称作4维张量),它的各维度尺寸为 (nb_samples, rows, columns, channels)。其中 nb_samples 表示图像(或者样本)的总数,rows, colum ...
分类:
其他好文 时间:
2018-08-07 20:46:59
阅读次数:
2346
目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 ...
分类:
其他好文 时间:
2018-08-06 19:17:41
阅读次数:
277
上一篇讲了ID3决策树原理,现在开始拿一个例子进行实战 一、python机器学习库 scikit-learn。sklearn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面。在实战使用scikit-learn中可以极大的节省我们编写代码的时间以及减少我们的 ...
分类:
其他好文 时间:
2018-08-06 00:35:26
阅读次数:
325
课程简介:课程风格通俗易懂,真实案例实战。精心挑选真实的数据集为案例,通过Python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同
分类:
编程语言 时间:
2018-07-26 15:00:32
阅读次数:
246
机器学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分 传统机器学习算法主要包括以下五类: 回归:建立一个回归方程来预测目标值,用于连续型分布预测 分类:给定大量带标签的数据,计算出未知标签样本的标签取值 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有 ...
分类:
编程语言 时间:
2018-07-25 20:08:14
阅读次数:
237
目录 一、 特征工程是什么? 2 ①特征使用方案 3 ②特征获取方案 4 ③特征处理 4 1. 特征清洗 4 2. 数据预处理 4 3. 特征监控 4 二、 数据预处理 5 1. 无量纲化 5 1.1标准化 5 1.2区间缩放法 7 1.3归一化方法有两种 7 2. 对定量特征二值化 8 1. 为什 ...
分类:
其他好文 时间:
2018-07-19 23:26:41
阅读次数:
818
本章的几个概念: 估计器(estimator) 用于分类、聚类和回归分析 转换器(transformer):用于数据预处理回来数据转换 流水线(pipeline): 组合数据挖掘流程, 便于在此使用 1.scikit-learn估计器 数据集下载地址:UCI 加载数据集: #coding=gbk # ...
分类:
其他好文 时间:
2018-07-19 13:35:57
阅读次数:
257
4 模块开发—数据预处理 4.1 主要目的: ...
分类:
Web程序 时间:
2018-07-18 17:19:00
阅读次数:
129