L1和L2的差别,为什么一个让绝对值最小,一个让平方最小,会有那么大的差别呢?我看到的有两种几何上直观的解析: 1)下降速度: 我们知道,L1和L2都是规则化的方式,我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程,L1和L2 ...
分类:
其他好文 时间:
2018-08-07 15:06:30
阅读次数:
192
锁的作用:避免并发请求时对同一个数据对象同时修改,导致数据不一致。 怎么加锁: 1.事务T1在对某个数据对象R1操作之前,先向系统发出请求,对其加锁L1. 2.之后,事务T1对该数据对象R1有了相应的控制,在T1释放L1之前,其它事务不能修改R1. 锁类型: 1.排它锁(X)。 2.共享锁(S)。 ...
分类:
数据库 时间:
2018-08-06 23:19:04
阅读次数:
237
数学基础 范数 转自:http://blog.csdn.net/alec1987/article/details/7488686 设X是数域K上线性空间,称║˙║为X上的范数(norm)。 范数的定义 若X是数域K上的线性空间,泛函 ║·║: X->R 满足: 1. 正定性:║x║≥0,且║x║=0 ...
分类:
其他好文 时间:
2018-08-06 13:39:59
阅读次数:
167
在商城的某个位置有一个商品列表,该列表是由L1、L2两个子列表拼接而成。当用户浏览并翻页时,需要从列表L1、L2中获取商品进行展示。展示规则如下: 1. 用户可以进行多次翻页,用offset表示用户在之前页面已经浏览的商品数量,比如offset为4,表示用户已经看了4个商品 2. n表示当前页面需要 ...
分类:
其他好文 时间:
2018-08-05 13:04:24
阅读次数:
129
1. 过拟合是什么? 2. 解决办法?1.数据增强 2.网络层数更深,网络模型更复杂 3.early stopping。提前终止网络学习,自己之前做的27w迭代期比21w迭代期的在测试集上ap值更低,可以把21w的作为最终的训练结果。 4.l1、l2正则 5.weight decay 6.增加噪声 ...
分类:
其他好文 时间:
2018-08-04 21:37:57
阅读次数:
350
2018-1-26 虽然我们不断追求更好的模型泛化力,但是因为未知数据无法预测,所以又期望模型可以充分利用训练数据,避免欠拟合。这就要求在增加模型复杂度、提高在可观测数据上的性能表现得同时,又需要兼顾模型的泛化力,防止发生过拟合的情况。为了平衡这两难的选择,通常采用两种模型正则化的方法:L1范数正则 ...
分类:
其他好文 时间:
2018-08-03 14:17:26
阅读次数:
136
"87. 扰乱字符串" 没有任何思路 直接google别人的题解,大致看懂了吧 简单的说,就是s1和s2是scramble的话,那么必然存在一个在s1上的长度l1,将s1分成s11和s12两段,同样有s21和s22.那么要么s11和s21是scramble的并且s12和s22是scramble的;要 ...
分类:
其他好文 时间:
2018-08-03 01:21:21
阅读次数:
265
传送门:>Here< 题意:给出一张无向图(边权为1),并给出两对起点和终点以及距离:s1,t1,l1; s2,t2,l2; 要求删除尽量多的边,使得dis(s1,t1)<=l1, dis(s2,r2)<=l2 解题思路 首先我们会发现,由于边权都为1,删去一些边,某两点间的最短路肯定会随着删的边越 ...
分类:
其他好文 时间:
2018-08-02 11:25:42
阅读次数:
144
按照左右半区的方式重新组合单链表 给定一个单链表的头部节点 head,链表长度为 N ,如果 N 为偶数,那么前 N/2 算作前半区,后 N/2 算作后半区,如果 N 为奇数,那么前 N/2 算作前半区,后 N/2 + 1算作后半区。左半区从左到右依次记为 L1->L2->...,右半区从左到右依次 ...
分类:
其他好文 时间:
2018-08-02 01:58:19
阅读次数:
195
Math类 概念 Math 类是包含用于执行基本数学运算的方法的数学工具类,如初等指数、对数、平方根和三角函数。 类似这样的工具类[L1] ,其所有方法均为静态方法,并且一般不会创建对象。如System类 常用方法 l abs方法,结果都为正数(绝对值) double d1 = Math.abs(- ...
分类:
编程语言 时间:
2018-08-01 11:43:31
阅读次数:
163