本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法。 CART算法全称是Classification and regression tree,也就是分类回归树的意思。和之前介绍的ID3和C4.5一样,C ...
分类:
编程语言 时间:
2020-06-06 13:03:09
阅读次数:
163
1.梯度下降法 是一种基于搜索的最优化方法,作用是最小化一个损失函数。 但不是所有的函数都有唯一的极值点。 解决方案:多次运行,随机初始化点 梯度下降法的初始点也是一个超参数 线性回归法的损失函数具有唯一的最优解。 模拟实现梯度下降法 1 import numpy as np 2 import ma ...
分类:
其他好文 时间:
2020-06-05 21:05:44
阅读次数:
70
前言 目标:预测测试集中乘客是否会存活 此项目数据集分为2份数据集titanic_train.csv和titanic_test.csv titanic_train.csv: 训练集,共计891条数据 titanic_test.csv: 测试集,共计418条数据 字段 字段说明PassengerId ...
分类:
其他好文 时间:
2020-06-05 15:10:48
阅读次数:
82
概述 决策树是如何工作的 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在 ...
分类:
其他好文 时间:
2020-06-02 12:50:22
阅读次数:
42
3. 架构优化-伸缩性 伸缩大白话就是给网站增添服务器,强如谷歌创立之初也是一台服务器,而现在已经有百万级的服务器了。任何网站随着业务的变化服务器的数量也会跟着变化,往往是慢慢增长,当然也有因为脉冲网站并发量一段时间内猛增然后回归正常的如淘宝双十一,回归正常后则需要减少服务器实现根据需求对资源最大化 ...
分类:
Web程序 时间:
2020-06-01 11:40:40
阅读次数:
80
当我们在训练一个神经网络的时候,参数的随机初始化是非常重要的,对于逻辑回归来说,把参数初始化为0是很ok的。但是对于一个神经网络,如果我们将权重或者是所有参数初始化为0,梯度下降算法将不会起到任何作用。 1.为什么逻辑回归参数初始化为0是ok的? 下图所示,是logistic回归的图解: 假设我们用 ...
分类:
其他好文 时间:
2020-06-01 00:50:01
阅读次数:
226
有很多刚学习软件测试的小伙伴,都会在网络上找寻各种学习资料,去提升自己的专业技能水平。因此,我决定定期分享我整理收集的一些软件测试的测试工具下载、面试宝典、视频教学合集。都整理好了,有需要的可以关注我(获取方式在文末) 软件测试的学习,不止是基础理论,还需要学习测试工具的用法,如接口工具Postma ...
分类:
其他好文 时间:
2020-05-31 17:40:34
阅读次数:
85
一、所有算法归结成四种算法 分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林),常见的应用有:垃圾邮件识别、图像识别。 回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ri ...
分类:
编程语言 时间:
2020-05-31 10:49:08
阅读次数:
87
以下汇总了我用R写过的一些数据分析工程 不定时更新 [1] 主要涉及: 数据清洗,线性回归模型拟合,模型选择(R-squared, AIC等),树形方法(rpart(), xgboost()等) github中有详细介绍及全部代码:https://github.com/wojamesyegit/R- ...
分类:
其他好文 时间:
2020-05-30 21:33:25
阅读次数:
100
定义问题 波士顿房价数据集收集于1978年,包括14个特征和506条数据(每条特征的中文解释暂时忽略)。 分析数据,发现输入的特征属性的度量单位是不统一的,也许需要对数据度量单位进行调整。 导入数据 首先导入项目中需要的类库。 1 #导入类库 2 import numpy as np 3 from ...
分类:
系统相关 时间:
2020-05-30 10:59:43
阅读次数:
66