随机性问题 水塘抽样算法可保证每个样本被抽到的概率相等 使用场景:从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到主内存的情况 Knuth洗牌算法 拿起第i张牌时,只从它前面的牌随机选出j,或从它后面的牌随机选出j交换即可 ...
分类:
其他好文 时间:
2019-07-24 19:30:01
阅读次数:
92
''' 集合算法: 1.正向激励 2.自助聚合:每次从总样本矩阵中以有放回抽样的方式随机抽取部分样本构建决策树,这样形成多棵包含不同训练样本的决策树, 以削弱某些强势样本对模型预测结果的影响,提高模型的泛化特性。 3.随机森林:在自助聚合的基础上,每次构建决策树模型时,不仅随机选择部分样本,而且还随... ...
分类:
其他好文 时间:
2019-07-14 17:49:54
阅读次数:
100
一、Voting 模型融合其实也没有想象的那么高大上,从最简单的Voting说起,这也可以说是一种模型融合。假设对于一个二分类问题,有3个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类。 二、Averaging 对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值 ...
分类:
其他好文 时间:
2019-07-01 17:06:26
阅读次数:
157
面试题目:实现RANSAC的框架 MRPT写得是比较好的,注意每次此迭代后需要更新迭代次数。见https://github.com/MRPT/mrpt/blob/master/libs/math/src/ransac.cpp,本文就该文件进行RANSAC的分析。 首先列一下步骤 1. 随机从数据集中 ...
分类:
其他好文 时间:
2019-06-23 20:38:03
阅读次数:
134
大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高
分类:
其他好文 时间:
2019-06-22 13:26:06
阅读次数:
106
某企业随机抽取100名工人进行技能测试成绩分别为:(单位:分) 57 89 49 84 86 87 75 73 72 68 75 82 97 81 67 81 54 79 87 95 76 73 60 90 65 76 71 70 86 85 89 89 64 57 83 84 78 87 72 6 ...
分类:
其他好文 时间:
2019-06-14 23:56:32
阅读次数:
270
● bagging和boosting的区别 参考回答: Bagging是从训练集中进行子抽样组成每个基模型所需要的子训练集,然后对所有基模型预测的结果进行综合操作产生最终的预测结果。 Boosting中基模型按次序进行训练,而基模型的训练集按照某种策略每次都进行一定的转化,最后以一定的方式将基分类器 ...
分类:
编程语言 时间:
2019-06-03 21:52:50
阅读次数:
156
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数,为模型对样本i的预测结果,为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归 ...
分类:
编程语言 时间:
2019-06-03 21:45:15
阅读次数:
198
Paper link:https://arxiv.org/pdf/1511.00561.pdf Motivation:为了实际应用,主要是在时间效率和存储空间上做了改进; Introduction: (1)Pipeline: (2)Light 1、带index的pooling: 在SegNet中的P ...
分类:
Web程序 时间:
2019-05-23 16:55:47
阅读次数:
136
集成学习方式总共有3种:bagging-(RF)、boosting-(GBDT/Adaboost/XGBOOST)、stacking 下面将对Bagging 进行介绍:(如下图所示) 用Bagging的方法抽取训练集时,大约有1/3 的数据没有被抽到。 从训练集进行一系列的子抽样,得到子训练集,训练 ...
分类:
其他好文 时间:
2019-05-22 11:06:06
阅读次数:
118