在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体 ...
分类:
其他好文 时间:
2018-05-26 21:26:57
阅读次数:
163
1、数据需要清洗注意在读取csv格式文件之后需要对空值进行补全类似如下代码:2、特征工程此处选取以下几个指标作为分类和回归的特征3、深度模型失效通过日志发现正样本即Y>0的样本所占比例在14%左右,深度分类模型可能将所有的数据分为Y=0导致没有数据进行回归所以此处采用传统方法使用SVM方法和决策树进行分类进过测试发现SVM效果较好4、正样本过少考虑将回归模型改为广义线性回归放弃深度模型
分类:
其他好文 时间:
2018-05-25 16:52:07
阅读次数:
563
在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。 1. 缺失值处理 特征有缺失值 ...
分类:
其他好文 时间:
2018-05-19 23:21:07
阅读次数:
220
归一化: 减去均值,然后归一化 这样归一化以后数据X就被归一化到-1到1的范围内。 归一化注意事项: 第一,样本归一化。FFM默认是进行样本数据的归一化,即 为真;若此参数设置为假,很容易造成数据inf溢出,进而引起梯度计算的nan错误。因此,样本层面的数据是推荐进行归一化的。 第二,特征归一化。C ...
分类:
其他好文 时间:
2018-05-10 11:39:59
阅读次数:
564
转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。 1. 时间戳处理 时间戳属性通常需要分离成多个维度比如年、月、日、小 ...
分类:
其他好文 时间:
2018-05-07 10:17:30
阅读次数:
161
基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个 ...
分类:
其他好文 时间:
2018-04-27 02:36:00
阅读次数:
189
特征工程学习01-sklearn单机特征工程小书匠 kindle 0.数据的导入from sklearn.datasets import load_iris #导入IRIS数据集 iris=load_iris() #特征矩阵 print(iris.data[:5],len(iris.data)) #... ...
分类:
其他好文 时间:
2018-04-10 21:47:13
阅读次数:
296
上一讲中主要描述了机器学习特征工程的基本流程,其内容在这里:机器学习(一)特征工程的基本流程 本次主要说明如下: 1)数据处理:此部分已经在上一节中详细讨论 2)特征工程:此部分已经在上一节中详细讨论 3)模型选择 4)交叉验证 5)寻找最佳超参数 首先看下总图: (一)模型选择: 1)交叉验证 交 ...
分类:
其他好文 时间:
2018-03-31 18:15:01
阅读次数:
297
一、前述 根据前文中架构,本文我们讨论线下部分构建训练集部分。因为我们离线部分模型的选择是逻辑回归,所以我们数据必须有x和y. 二、具体流程 1.从数据库中分离出我们需要的数据。 用户行为表(日志) 用户历史下载表 商品词表(商品的基本特征) 2.构建训练集中的关联特征 流程: 2.构建训练集中的基 ...
分类:
其他好文 时间:
2018-03-26 19:20:18
阅读次数:
319
前言 特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简 ...
分类:
其他好文 时间:
2018-03-25 16:20:33
阅读次数:
1402