1 ResNet 1.1 Why 当模型层数增加到某种程度,模型的效果将会不升反降,发生退化。 不是过拟合:训练误差也大 不是梯度消失/爆炸:BN基本解决了这个问题 问题:堆加新的层后,这些层很难做到恒等映射,由于非线性激活。 1.2 解读 把网络设计为H(x) = F(x) + x,即直接把恒等映... ...
分类:
Web程序 时间:
2020-03-17 21:06:35
阅读次数:
110
每一个output的值都有prob的概率被保留,如果保留=input/ prob,否则变为0 dropout相当于一个过滤层,tensorflow不仅丢弃部分input,同时将保留下的部分适量地增加以试图弥补梯度 1 inputs = tf.reshape(tf.range(40.), (2,4,5 ...
分类:
其他好文 时间:
2020-03-16 21:54:37
阅读次数:
57
一、基本概念 GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树。 GBDT通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。 弱分类器一般会选择为CART TREE(也就是分类回归树)。 每一轮预测和实际值有残差,下 ...
分类:
其他好文 时间:
2020-03-12 17:13:44
阅读次数:
71
强化学习 值函数近似和策略梯度 [toc] 前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问题几乎无法求解,而许多实际问题拥有大量状态或动作,甚至是连续的状 ...
分类:
其他好文 时间:
2020-03-12 09:49:06
阅读次数:
93
轻量级梯度提升模型 其相对 XGBoost 具有训练速度快、内存占用低的特点 "zhihu" 网红XGBoost的缺点 虽然利用预排序和近似算法可以降低寻找最佳分裂点的计算量,但在节点分裂过程中仍需要遍历数据集; 预排序过程的空间复杂度过高,不仅需要存储特征值,还需要存储特征对应样本的梯度统计值的索 ...
分类:
其他好文 时间:
2020-03-10 14:28:23
阅读次数:
48
一.线性回归实现总结 手动实现线性回归,损失函数,梯度下降优化函数 线性回归是神经网络的基石,每一个神经元都可以看作是一个线性回归 https://www.cnblogs.com/xieviki650/p/ML_Linear-regression.html 推荐李宏毅老师的机器学习视频,结合视频和作 ...
分类:
其他好文 时间:
2020-03-08 19:46:48
阅读次数:
79
DeepLift是基于反向传播的特征打分算法 目前已有的反向传播算法或基于扰动的打分算法会遇到一个问题 就是在经过Relu激活函数的时候梯度会变为0,但是此特征不一定是无用特征。 情况如下: 可以看见i1,i2都是有效特征,但是在i1+i2大于0的时候,他们的导数会变为0从而导致打分出错。 论文中提 ...
分类:
其他好文 时间:
2020-03-07 19:14:51
阅读次数:
905
将所有的预测结果都归一化到 0~1, 使用 Leaky RELU 作为激活函数。 Leaky RELU的公式如下: Leaky RELU可以解决RELU的梯度消失问题。 损失函数的设计目标就是让坐标(x,y,w,h),confidence,classification 这个三个方面达到很好的平衡。 ...
分类:
其他好文 时间:
2020-03-07 13:09:25
阅读次数:
369
神经元的数学表示 神经元可以理解为一个具有多个输入、单个输出的模型,输入和输出的关系可以用一个函数来表示。如果用$x_1,x_2,x_3,\cdots,x_n$表示输入,$y$表示输出,那么这个函数可以表示为: $$y = a(w_1x_1+w_2x_2+w_3x_3+\cdots+w_nx_n+b ...
分类:
其他好文 时间:
2020-03-05 15:21:36
阅读次数:
61
J=0;dw1=0;dw2=0;db=0; for i = 1 to m z(i) = wx(i)+b; a(i) = sigmoid(z(i)); J += -[y(i)log(a(i))+(1-y(i))log(1-a(i)); dz(i) = a(i)-y(i); dw1 += x1(i)dz ...
分类:
其他好文 时间:
2020-03-04 18:50:11
阅读次数:
52