新智元推荐 来源:LinkedIn 作者:Abhishek Thakur 译者:弗格森 【新智元导读】本文是数据科学家Abhishek Thakur发表的Kaggle热门文章。作者总结了自己参加100多场机器学习竞赛的经验,主要从模型框架方面阐述了机器学习过程中可能会遇到的难题,并给出了自己的解决方 ...
分类:
其他好文 时间:
2017-01-17 23:12:30
阅读次数:
1019
CXCORE库: Mahalanobis距离: K均值: CV库: 人脸检测/Haar分类器 ML库: 正态朴素贝叶斯分类器: 决策树: Boosting: 随机森林: EM算法: K近邻(KNN): 神经网络/多层感知器: 支持向量机(SVM): ...
分类:
编程语言 时间:
2016-12-27 00:00:25
阅读次数:
194
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GB ...
分类:
编程语言 时间:
2016-12-10 22:34:29
阅读次数:
268
注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 背景: 目前市场部使用的推广活动分析系统只能针对客户调查返回的信息分析,且仅有年龄/性别/婚姻状态/收入四个维度, 预测精度不高. 市场部希望能从现有的寿险客户信息分析出影响他们选 ...
分类:
其他好文 时间:
2016-12-05 01:38:59
阅读次数:
243
现在现将随机森林的学习的大纲进行列举: 1.决策树的算法: ID3,C4.5,CART,bagging,GBDT,RandomForest. 2.RandomForest的原理: 在m个样本中,有放回的随机抽取m个样本,作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建T棵决策树 ...
分类:
其他好文 时间:
2016-12-04 23:29:09
阅读次数:
200
一、无监督异常检测模型 1.在线流数据异常检测(iforest隔离森林算法) 该方法的主要思想是,通过随机选定样本属性及其值将样本空间进行随机划分,分割的过程可以看成类似于随机森林中树建立的过程,对于新的样本,基于建立的隔离树求其分割深度,深度值越小,表明越容易被隔离,也就意味着异常的概率越大;反之 ...
分类:
其他好文 时间:
2016-11-27 06:26:00
阅读次数:
1281
本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。
建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选,在课程案例中通过了随机森林进行变量的粗筛...
分类:
其他好文 时间:
2016-11-18 12:27:16
阅读次数:
475
使用基于Apache Spark的随机森林方法预测贷款风险 使用基于Apache Spark的随机森林方法预测贷款风险 原文:Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests 作者:Carol ...
分类:
Web程序 时间:
2016-11-11 09:34:41
阅读次数:
478
前言:因为有接触过随机森林的基础知识,学习机器学习的时候也遇到过,最近又深入学习一次,以此mark一下。
一. 什么事随机森林?
作为新兴起的、高度灵活的一种机器学习算法,随机森林(Ran...
分类:
其他好文 时间:
2016-11-02 14:49:46
阅读次数:
414
上两篇说了决策树到集成学习的大概,这节我们通过adaboost来具体了解一下集成学习的简单做法。 集成学习有bagging和boosting两种不同的思路,bagging的代表是随机森林,boosting比较基础的adaboost,高级一点有GBDT,在这里我也说下我理解的这两个做法的核心区别: 随 ...
分类:
其他好文 时间:
2016-10-18 02:33:46
阅读次数:
242