传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。也就是说,开发者通过添加和改善特征来调整模型。 将原始数据映射到特征 图1左侧表示来自输入数据源的原始数据,右侧表示 特征矢量 ,也就是组成数据集中样本的浮点值集。 特种工程 指的是将原始数据转换为特征矢量。进行特种工程预计需要大量的时间。 ...
分类:
其他好文 时间:
2018-03-25 11:54:35
阅读次数:
141
听说最近冒出的大批呱儿子个个都是撑着眼皮也要看书的无眠小青蛙。我们学习Machine Learning的脚步又怎能停下来?动动手指,上滑开始~ 今天的内容是 【特征工程—结构化数据】 场景描述 特征工程是指结合问题寻找有效的特征并进行处理成适合模型的输入形式。机器学习中有句经典的话叫做“Garbag ...
分类:
其他好文 时间:
2018-02-27 23:40:19
阅读次数:
436
老朋友了,还用多说什么吗?点击下面的链接复习咯: 17. 随机梯度下降算法之经典变种 18. SVM—核函数与松弛变量 19. 主题模型 20. PCA最小平方误差理论 21. 分类、排序、回归模型的评估 22. 特征工程—结构化数据 23. 神经网络训练中的批量归一化 24. 随机梯度下降法 你可 ...
分类:
其他好文 时间:
2018-02-27 21:32:28
阅读次数:
212
特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process ...
分类:
其他好文 时间:
2018-02-12 20:13:37
阅读次数:
196
第一次参加天池新人赛,主要目的还是想考察下自己对机器学习上的成果,以及系统化的实现一下所学的东西。看看自己的掌握度如何,能否顺利的完成一个分析工作。为之后的学习奠定基础。 这次成绩并不好,只是把整个机器学习的流程熟悉了下。我本人总结如下: 步骤一:读懂题目含义,分析赛题的数据 步骤二:特征工程的设计 ...
分类:
其他好文 时间:
2018-02-01 17:12:12
阅读次数:
1488
一、确定目标 业务需求 数据 特征工程 (占70%,主要包括数据的清洗,提取,转换) 二、训练模型 定义模型 定义损失函数 (偏差的大小) 优化算法 三、模型评估 交叉验证 效果评估 ...
分类:
其他好文 时间:
2018-01-06 11:54:20
阅读次数:
110
文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看。 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条、145个字段的原始数据一步一步处理成建模所需输入的数据。 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 1、评分卡简介 在 ...
分类:
其他好文 时间:
2018-01-01 11:25:11
阅读次数:
347
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 ...
分类:
其他好文 时间:
2017-12-23 17:24:05
阅读次数:
186
业务解决方案: 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型 把字符型特征转化成算法可以处理的数值表示,实现特征抽象.特征是二值型的, 如sex 这个字段有male 和fem 两种,就把sex 抽象成0 和1。如果特征的数值是多值型, 如status,就按照严重程度从0 到1 再到 ...
分类:
编程语言 时间:
2017-12-05 16:01:26
阅读次数:
239
https://www.52ml.net/20145.html 1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结 ...
分类:
其他好文 时间:
2017-11-06 21:29:17
阅读次数:
160