为什么需要做归一化或者标准化 一句话解释就是为了让我们求解loss最低值的过程中更加的平稳和缓,容易收敛。 具体解释可以看这里: 特征工程中的「归一化」有什么作用? 忆臻的回答 知乎 https://www.zhihu.com/question/20455227/answer/197897298 用 ...
分类:
其他好文 时间:
2019-06-04 12:56:50
阅读次数:
117
归一化和标准化的使用场景以及归一化和标准化有没有改变数据分布 具体讲解可以看这里: 特征工程中的「归一化」有什么作用? 微调的回答 知乎 https://www.zhihu.com/question/20455227/answer/370658612 从这个答案我们知道,标准化和归一化在数据确定的条 ...
分类:
其他好文 时间:
2019-06-04 12:55:27
阅读次数:
151
Batch normalization 1. 为什么我们需要对特征做feature scaling? 一句话解释就是为了让我们求解loss最低值的过程中更加的平稳和缓,容易收敛。 具体解释可以看这里: 特征工程中的「归一化」有什么作用? 忆臻的回答 知乎 https://www.zhihu.com/ ...
分类:
其他好文 时间:
2019-06-04 12:38:21
阅读次数:
101
特征选择 (feature_selection) Filter 1. 移除低方差的特征 (Removing features with low variance) 2. 单变量特征选择 (Univariate feature selection) Wrapper 3. 递归特征消除 (Recursi ...
分类:
其他好文 时间:
2019-05-27 13:29:37
阅读次数:
92
特征选择 (feature_selection) Filter 1. 移除低方差的特征 (Removing features with low variance) 2. 单变量特征选择 (Univariate feature selection) Wrapper 3. 递归特征消除 (Recursi ...
分类:
其他好文 时间:
2019-05-27 13:26:05
阅读次数:
100
上一篇博客用词袋模型,包括词频矩阵、Tf-Idf矩阵、LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题。 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用word2vec词向量和glove词向量进行文本表示,训练随机森林分类器。 一、训练word2vec ...
分类:
其他好文 时间:
2019-05-19 18:10:28
阅读次数:
149
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
get_dummies 装箱 交互式特征 多项式特征 单一变量法 基于模型的特征选择 迭代式特征选择 ...
分类:
其他好文 时间:
2019-05-07 18:25:18
阅读次数:
237
1.题目 这道题目的地址在 "https://www.kaggle.com/c/titanic" ,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还。题目练习的要点是语言和数据分析的基础内容(比如python、num ...
分类:
其他好文 时间:
2019-05-05 21:59:41
阅读次数:
166
分类算法:对目标值进行分类的算法 1、sklearn转换器和预估器 2、KNN算法 3、模型选择与调优 4、朴素贝叶斯算法 5、决策树 6、随机森林 sklearn转换器(transfer)与估计器(estimeter) 1、转换器 - 特征工程的父类 转换器 - 特征工程的父类 1、API的实现过... ...
分类:
编程语言 时间:
2019-03-10 12:23:56
阅读次数:
627