房价预测 是我入门Kaggle的第二个比赛,参考学习了他人的一篇优秀教程:https://www.kaggle.com/serigne/stacked regressions top 4 on leaderboard 通过 Serigne 的这篇notebook,我学习到了关于数据分析、特征工程、集 ...
分类:
其他好文 时间:
2019-08-21 18:58:06
阅读次数:
120
人工智能在外卖送达时预估上的应用 这篇讲清楚了 O2O 线下业务 和 线上业务,在特征工程上的差异; ...
分类:
其他好文 时间:
2019-08-16 11:53:06
阅读次数:
92
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。# 一、特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业... ...
分类:
其他好文 时间:
2019-07-19 19:14:38
阅读次数:
108
在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。# 一、缺失值处理 特征有缺失值... ...
分类:
其他好文 时间:
2019-07-19 19:01:22
阅读次数:
88
异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结。# 一、1.异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况。一是在做特征工程的时候需要对... ...
分类:
编程语言 时间:
2019-07-19 18:53:40
阅读次数:
91
百面机器学习是一本记录面试问题的书,一方面,学习里面的问题和解答有助于我们更好的掌握机器学习,另一方面,以目录为索引,可以扩展我们的知识面,掌握应届生从事机器学习必备的技能。下面以章节为单位,记录书本的大纲内容。 第1章 特征工程 01 为什么要对数值类型的特征做归一化? 对数值类型的特征做归一化可 ...
分类:
其他好文 时间:
2019-07-14 15:13:21
阅读次数:
124
机器学习主要由监督学习、无监督学习。 监督学习主要用于解决分类和回归问题。 无监督学习主要用于解决聚类问题。 在机器学习过程中主要有以下几个步骤: 数据预处理 特征工程 数据建模 结果评估 首先介绍数据预处理,主要包括数据清洗、数据采样以及数据集的拆分三个部分。 在数据清洗过程中主要对各种脏数据进行 ...
分类:
其他好文 时间:
2019-07-05 00:38:17
阅读次数:
170
一、描述性统计分析 二、数据预处理 三、特征工程 四、建模 (1)测试集与预测集划分(8/2分) 测试集交叉验证选择模型 五、评估模型 ...
分类:
其他好文 时间:
2019-07-03 22:50:39
阅读次数:
117
推荐算法在互联网行业的应用非常广泛,今日头条、美团点评等都有个性化推荐,推荐算法抽象来讲,是一种对于内容满意度的拟合函数,涉及到用户特征和内容特征,作为模型训练所需维度的两大来源,而点击率,页面停留时间,评论或下单等都可以作为一个量化的 Y 值,这样就可以进行特征工程,构建出一个数据集,然后选择一个... ...
分类:
编程语言 时间:
2019-06-23 19:09:30
阅读次数:
254
归一化与标准化属于特征预处理的范畴 · 特征预处理是什么? 通过特定的数学统计方法将数据转化为算法要求的数据; 特征预处理在scikit-learn中的模块是:sklearn.preprocessing 对于不同的数据类型,有不同的处理方式,三种常见的数据类型: 对于不同的数据类型,有不同的处理方式 ...
分类:
其他好文 时间:
2019-06-18 13:54:05
阅读次数:
122