在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体 ...
分类:
其他好文 时间:
2019-10-24 00:23:40
阅读次数:
73
转自:https://www.cnblogs.com/pinard/p/9032759.html 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分 ...
分类:
其他好文 时间:
2019-10-23 18:38:06
阅读次数:
59
一、数据读取Load Data 二、数据分析EDA 三、特征工程Feature engineering 四、modeling 五、Tuning 六、Result 一、数据读取Load Data 二、数据分析EDA import matplotlib.pyplot as plt import seab ...
分类:
其他好文 时间:
2019-10-13 15:23:33
阅读次数:
106
特征工程预处理0.异常检测为什么不全部使用普通有监督的方法来学习呢(即把它看做是一个普通的二分类问题)?主要是因为在异常检测中,异常的样本数量非常少而正常样本数量非常多,因此不足以学习到好的异常行为模型的参数,因为后面新来的异常样本可能完全是与训练样本中的模式不同。可采用对每列特征分别用高斯分布去拟... ...
分类:
其他好文 时间:
2019-10-09 17:32:40
阅读次数:
82
对于数据挖掘,数据准备阶段主要就是进行特征工程。 数据和特征决定了模型预测的上限,而算法只是逼近了这个上限。 好的特征要少而精,这会使模型更简单、更精准。 一、特征构造 1.’常见提取方式 文本数据的特征提取 词袋向量的方式:统计频率 图像数据的特征提取 像素点RGB 用户行为特征提取 特征提取总结 ...
分类:
其他好文 时间:
2019-10-04 09:56:48
阅读次数:
140
# 人工智能:预测,分类 # 人工智能: # 自动的工作 # 机器学习(包含深度学习) # 以前的限制因素:计算能力,数据,算法发展 # 用途: # 图像识别 # 识别图片中不同的地方(医学CT) 不用人工识别 # 图片艺术化(可以替代ps) # 无人驾驶 # 人脸识别 # 自然语言处理 # 语音识... ...
分类:
其他好文 时间:
2019-09-27 01:20:05
阅读次数:
118
Sklearn库是基于Python的第三方库,它包括机器学习开发的各个方面。 机器学习的开发基本分为六个步骤,1)获取数据,2)数据处理,3)特征工程,4)机器学习的算法训练(设计模型),5)模型评估,6)应用。 机器学习的算法一般分为两种:一种既有目标值又有特征值的算法称之为监督学习,另一种只有特 ...
分类:
编程语言 时间:
2019-09-24 12:27:09
阅读次数:
189
一、特征选择 (1)特征来源: 1、已经处理好的特征数据 2、从业务特征中自己去寻找高级数据特征 (2)选择合适的特征: 1、寻找该领域专家,向他们寻求建议 2、方差筛选 3、过滤法 4、包装法 5、嵌入法 (3) 寻找高级特征 1、若干项特征向加和 2、若干项特征相乘 3、若干项特征之差 4、若干 ...
分类:
其他好文 时间:
2019-09-07 13:22:42
阅读次数:
90
1.捕捉A、B变量中的(A强,B弱|A弱、B强)(A中,B中)这样的特征情况,可以用决策树方法(cart)先对A/B变量分箱,然后对分箱结果编码, 然后对分箱结果相乘生成新变量,里面就会有上面说的这种组合变量出现。 这也是为什么好多方法中,先生成一个模型,然后再将这个模型的结果作为一个变量进入另一个 ...
分类:
其他好文 时间:
2019-09-02 12:01:31
阅读次数:
81
数据清洗: 1、异常值 1)基于概率分布,构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。 2)聚类,比如我们可以用KMeans聚类将训练样本分成若干个簇,如果某一个簇里的样本数很少,而且簇质心和其他所有的簇都很远,那么这个簇里面的样本极有可能是异常特征样本了。我们可 ...
分类:
其他好文 时间:
2019-09-01 15:04:45
阅读次数:
78