现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
数据产业核心任务:数据产生价值(可被产品化的商业价值) 三个关键环节:数据业务定义、数据分析与建模、数据业务实施 三个关键词:收入、支出(控制成本)、风险 重要因素:可以量化的参照系 精确定位,有的放矢 更好的决策分析 受众主体:企业、政府 预测不准是常态,但可以提供价值 统计学:回归分析 分类:线 ...
分类:
其他好文 时间:
2019-05-11 20:00:43
阅读次数:
132
<机器学习基础> 逻辑回归,SVM,决策树 1、逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2、Linear SVM 和 线性回归 有什么异同? 答案:https://www.zhihu.com/questio ...
分类:
编程语言 时间:
2019-03-25 17:55:13
阅读次数:
232
集成学习: 集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。 目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。 集成学习主要思想: ...
分类:
其他好文 时间:
2019-02-27 20:36:53
阅读次数:
221
综合上述两个帖子: https://www.cnblogs.com/huadongw/p/6161145.html https://blog.csdn.net/u011587516/article/details/78995186 先把之前安装的xgboost都卸载干净: pip uninstall ...
分类:
系统相关 时间:
2019-02-24 12:16:07
阅读次数:
339
GBDT和XgBoost的区别 首先,GBDT来自于融合模型中的Boosting算法,Boosting算法的原理是先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,提高训练数据集中判断错误的样本权重,降低判断正确的权重,使得先前基学习器做错的样本在后续能得到更多关注,然后... ...
分类:
其他好文 时间:
2019-02-22 23:22:02
阅读次数:
213
kaggle比赛必备算法XGBoost入门及实战 kaggle比赛必备算法XGBoost入门及实战 kaggle比赛必备算法XGBoost入门及实战 kaggle比赛必备算法XGBoost入门及实战 xgboost一直在kaggle竞赛江湖里被传为神器,它在对结构化数据的应用占据主导地位,是目前开源 ...
分类:
其他好文 时间:
2019-02-22 23:21:15
阅读次数:
274
xgboost原理及应用--转 1.背景 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。 2.xgboost vs gbdt 说到xgboost,不得不说gbdt。了解gbd ...
分类:
其他好文 时间:
2019-02-20 09:27:26
阅读次数:
195
1.原理 //TODO 2.Python Package Scikit-Learn API 2.1输入 数据的特征分为两类,一类是连续型,比如:体重,一种是分类型,比如性别。 在scikit-learn中的Glossary of Common Terms and API Elements有这么一段话 ...
分类:
其他好文 时间:
2019-02-01 23:50:56
阅读次数:
296