机器学习-决策树的基本思想 决策树算法是最早的机器学习算法之一。 算法框架 1.决策树主函数 各种决策树的主函数都大同小异,本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点,并根据终止条件结束算法。一般来讲,主函数需要完成如下几个功能。 (1)输入需要分类的数据集和类别 ...
分类:
其他好文 时间:
2020-03-05 01:27:16
阅读次数:
232
本文主要参考卡耐基梅隆大学(CMU)的Ryan Tibshirani教授在 "Convex Optimization" 课上的Lecture Notes 在统计学习和机器学习领域,基本上你想做的绝大部分事情都是一种优化问题。所以,面对具体的问题,你要做的事情可以概括为下图所示 即:如何把头脑中的id ...
分类:
其他好文 时间:
2020-03-04 23:23:29
阅读次数:
62
J=0;dw1=0;dw2=0;db=0; for i = 1 to m z(i) = wx(i)+b; a(i) = sigmoid(z(i)); J += -[y(i)log(a(i))+(1-y(i))log(1-a(i)); dz(i) = a(i)-y(i); dw1 += x1(i)dz ...
分类:
其他好文 时间:
2020-03-04 18:50:11
阅读次数:
52
1、概述 随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树,以减少过度拟合的风险。像决策树一样,随机森林处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互。 spark.mllib支持使用连续和分类功能对二元和多类分类以及进 ...
分类:
其他好文 时间:
2020-03-04 12:28:12
阅读次数:
105
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天的文章和大家聊聊文本分析当中的一个简单但又大名鼎鼎的算法—— TF idf 。说起来这个算法是自然语言处理领域的重要算法,但是因为它太有名了,以至于虽然我不是从事NLP领域的,但在面试的时候仍然被问过好几次,可见这个算法的重要性。 ...
分类:
编程语言 时间:
2020-03-04 10:03:47
阅读次数:
89
1.概述 GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再此基础上, ...
分类:
数据库 时间:
2020-03-04 09:52:00
阅读次数:
84
机器学习-朴素贝叶斯原理及Python实现 贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例:苹果10个,有2个黄色;梨10个,有6个黄色,求拿出一个黄色水果,是苹果的概率。 代入公式: P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6 ...
分类:
编程语言 时间:
2020-03-04 00:44:30
阅读次数:
106
概述最近学习机器学习(和深度学习),入门第一个接触的便是简单线性回归。所谓线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其形式可表示为:y=w1x1+w2x2+w3x3+...+w_nx_n+b而简单线性回归,是其最简单的形式:y=wx+b,即我们所熟知的一次函数,理解为给定权重w和偏置(或称为截距)b,结果y随变量x的变化而变化。简单线性回归
分类:
其他好文 时间:
2020-03-04 00:02:30
阅读次数:
97
本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以 进行讲解,Spark版本为 。模型评估指标位于包 下。 模型评估指标是指测试集的评估指标,而不是训练集的评估指标 1、回归评估指标 RegressionEvaluator Evaluator for regression, which ...
分类:
其他好文 时间:
2020-03-03 22:38:09
阅读次数:
144
收藏好文: <机器学习>无监督学习算法总结 https://www.cnblogs.com/dynmi/p/11619698.html 有动画演示。 ...
分类:
其他好文 时间:
2020-03-03 20:42:14
阅读次数:
58