注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 背景: 目前市场部使用的推广活动分析系统只能针对客户调查返回的信息分析,且仅有年龄/性别/婚姻状态/收入四个维度, 预测精度不高. 市场部希望能从现有的寿险客户信息分析出影响他们选 ...
分类:
其他好文 时间:
2016-12-05 01:38:59
阅读次数:
243
现在现将随机森林的学习的大纲进行列举: 1.决策树的算法: ID3,C4.5,CART,bagging,GBDT,RandomForest. 2.RandomForest的原理: 在m个样本中,有放回的随机抽取m个样本,作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建T棵决策树 ...
分类:
其他好文 时间:
2016-12-04 23:29:09
阅读次数:
200
一、无监督异常检测模型 1.在线流数据异常检测(iforest隔离森林算法) 该方法的主要思想是,通过随机选定样本属性及其值将样本空间进行随机划分,分割的过程可以看成类似于随机森林中树建立的过程,对于新的样本,基于建立的隔离树求其分割深度,深度值越小,表明越容易被隔离,也就意味着异常的概率越大;反之 ...
分类:
其他好文 时间:
2016-11-27 06:26:00
阅读次数:
1281
本内容来源于CDA-DSC课程内容,原内容为《第16讲 汽车金融信用违约预测模型案例》。
建立违约预测模型的过程中,变量的筛选尤为重要。需要经历多次的筛选,在课程案例中通过了随机森林进行变量的粗筛...
分类:
其他好文 时间:
2016-11-18 12:27:16
阅读次数:
475
使用基于Apache Spark的随机森林方法预测贷款风险 使用基于Apache Spark的随机森林方法预测贷款风险 原文:Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests 作者:Carol ...
分类:
Web程序 时间:
2016-11-11 09:34:41
阅读次数:
478
前言:因为有接触过随机森林的基础知识,学习机器学习的时候也遇到过,最近又深入学习一次,以此mark一下。
一. 什么事随机森林?
作为新兴起的、高度灵活的一种机器学习算法,随机森林(Ran...
分类:
其他好文 时间:
2016-11-02 14:49:46
阅读次数:
414
上两篇说了决策树到集成学习的大概,这节我们通过adaboost来具体了解一下集成学习的简单做法。 集成学习有bagging和boosting两种不同的思路,bagging的代表是随机森林,boosting比较基础的adaboost,高级一点有GBDT,在这里我也说下我理解的这两个做法的核心区别: 随 ...
分类:
其他好文 时间:
2016-10-18 02:33:46
阅读次数:
242
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 模型组合(比如说有Boo ...
分类:
其他好文 时间:
2016-10-13 02:43:34
阅读次数:
190
这节课终于不是那么迷糊了,如果100分满分的话,听懂程度有70分了,初学者就是这么容易满足。 :| 老师说这是这20次课里最简单的一次。。。oh。。。no。 不废话了,接着记笔记吧。 CART:classsification and regression tree 三种决策树:ID3,C4.5,CA ...
分类:
其他好文 时间:
2016-10-11 13:51:38
阅读次数:
125
决策树意义: 分类决策树模型是表示基于特征对实例进行分类的树形结构.决策树可以转换为一个if_then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布. 它着眼于从一组无次序、无规则的样本数据(概念)中推理出决策树表示形式的分类规则.假设这里的样本数据应该能够用“属性—结论”.决策树学 ...
分类:
其他好文 时间:
2016-10-10 23:27:32
阅读次数:
408