自助采样包含训练集里63.2%的样本? 在学习随机森林的时候,经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了% 63.2 的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。 “ 那么这个63.2%是怎么来的呢?假设我们有n个样本, ...
分类:
其他好文 时间:
2018-10-25 14:03:12
阅读次数:
195
1、Threads(线程组),简单来说就是控制一个线程组控制器,用来控制线程的一些操作。 2、逻辑控制器,官方解释就是用来控制采样器的执行顺序。 3、配置元件,这个栏目的工具是我最喜欢的工具,因为他可以让人偷懒,可以大大的提高工作效率;另一种说法可以说是一个公共部分,只要添加了一个之后下面的所有地方 ...
分类:
其他好文 时间:
2018-10-24 17:53:36
阅读次数:
141
引言 已经有很多U Net Like的神经网络被提出。 U Net适用于医学图像分割、自然图像生成。 在医学图像分割表现好: 1. 因为利用了底层的特征(同分辨率级联)改善上采样的信息不足。 2. 医学图像数据一般较少,底层的特征其实很重要。 不只是医学图像,对于二分类的语义分割问题,类 UNet ...
分类:
其他好文 时间:
2018-10-22 14:41:44
阅读次数:
1357
1、limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况 对数据源进行抽样 hive.limit.optimize.enable=true 开启对数据源进行采样的功能 hive.limit.row.max.size 设置最 ...
分类:
其他好文 时间:
2018-10-22 13:03:47
阅读次数:
274
场景用户画像的构造中,想象一个场景:你经过辛辛苦苦抓数据,清洗数据,收集用户行为,目的就是给用户计算兴趣标签。 这时候你可能会遇到一个两难的问题:如果给用户计算出兴趣标签的权重了,那应该保留多少标签呢?保留太多的话,每次召回候选集时,计算复杂度可不低,只保留少部分吧,那真是手心手背都是肉,生怕丢弃的 ...
分类:
编程语言 时间:
2018-10-21 16:06:01
阅读次数:
162
前言 前段时间调试 STM32F030 的 ADC,在多通道转换时遇到了奇怪的问题,使用官方的例程和库函数连续转换多个 ADC 通道,得到的几个通道的结果是一样的,解决办法参考了 "关于STM32F0系列多路ADC单独采样数据相同问题的处理" ,在此表示感谢。 记录 在官方库的例程 ADC_Basi ...
分类:
其他好文 时间:
2018-10-17 11:01:48
阅读次数:
275
MAP:最大后验概率(Maximum a posteriori) 估计方法根据经验数据获得对难以观察的量的点估计。它与最大似然估计中的 Fisher方法有密切关系, 但是它使用了一个增大的优化目标,这种方法将被估计量的先验分布融合到其中。所以最大后验估计可以看作是规则化(regularization ...
分类:
其他好文 时间:
2018-10-16 19:24:39
阅读次数:
125
由于最近的demo中需要在活体检测的同时进行音视频录制 , 尝试使用MediaRecord和camera来录制视频 , 然而Camera.onPreviewFrame 不能与 MediaRecord同时调用。活体检测的原理其实是把camera的预览回调onPreviewFrame(byte[] da ...
分类:
编程语言 时间:
2018-10-15 11:58:10
阅读次数:
200
连续时变系统状态方程的离散化 连续时变系统状态方程的离散化 用计算机对连续时间系统状态方程求解,需先将其状态方程化为离散方程。 假设:(1)t=kT,T为采样周期,且很小,k=0,1,2…为一正整数。 (2)u(t)只在采样时离散化,即在kt≤t≤(k+1)T,u(t)=u(kT)=常数 本文是主要 ...
分类:
其他好文 时间:
2018-10-14 16:34:53
阅读次数:
386
做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 4 天约 2 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 不平衡数据集的处理思路: 一般对样本进行 上采样 和 下采样,顾名思义就是 多的样本少采 ...
分类:
其他好文 时间:
2018-10-14 13:58:18
阅读次数:
340