Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。 当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。 相比于最小二乘的线性回归,HuberLoss降低了对离群点的惩罚 ...
分类:
其他好文 时间:
2020-04-05 09:22:37
阅读次数:
64
1. 数据增强Data Augmentation 数据增强让有限的数据产生更多的数据,增加训练样本的数量以及多样性(噪声数据),提升模型鲁棒性。神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,但在很多实际的项目中,我们难以找到充足的 ...
分类:
其他好文 时间:
2020-03-26 17:43:26
阅读次数:
344
数值型特征处理:通过特定的统计方法将数据转换成算法要求的数据,归一化和标准化 # 归一化的计算公式决定了其对异常值很敏感,一旦出现异常值会导致鲁棒性较差,所以归一化只适合传统精确小数据场景 from sklearn.preprocessing import MinMaxScaler def mm() ...
分类:
其他好文 时间:
2020-03-25 14:59:46
阅读次数:
90
理论上讲线性回归模型既可以用于回归,也可以用于分类。解决回归问题,可以用于连续目标值的预测。但是针对分类问题,该方法则有点不适应,因为线性回归的输出值是不确定范围的,无法很好的一一对应到我们的若干分类中。即便是一个二分类,线性回归+阈值的方式,已经很难完成一个鲁棒性很好的分类器了。为了更好的实现分类 ...
分类:
编程语言 时间:
2020-03-21 18:33:18
阅读次数:
89
题目描述 输入一个链表,反转链表后,输出新链表的表头。 思路 一个比较经典的题目。要维护3个指针:当前结点的指针curNode、当前结点的前一个结点的指针preNode和当前结点的下一个结点的指针nextNode。首先使用nextNode保存curNode的下一个结点地址,不然链表会断掉,然后将cu ...
分类:
其他好文 时间:
2020-03-09 20:55:01
阅读次数:
46
题目描述 输入一个链表,输出该链表中倒数第k个结点(k从1开始)。 思路1 假设链表中共有n个节点,倒数第k个节点即为正数第n k+1个节点(正数倒数编号都从1开始)。所以我们首先要将链表遍历一遍获得长度n,然后再移动到第n k+1个节点即可。对应代码如下: 思路2 思路1主要的缺点是要先把链表遍历 ...
分类:
其他好文 时间:
2020-03-09 16:25:07
阅读次数:
70
孤立森林 Isolation Forest(sklearn.ensemble.IsolationForest):一种适用于 连续数据 的 无监督 异常检测方法。与随机森林类似,都是高效的集成算法,相较于LOF,K-means等传统算法,该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo ...
分类:
其他好文 时间:
2020-03-03 22:39:30
阅读次数:
103
什么是时序数据 时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同类的,要求具有可比性。简单的来说,就是按照时间为索引的数据列。 如何使用时序数据 对时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,基于规律构建时间序列模型,进行 ...
分类:
其他好文 时间:
2020-02-26 21:00:22
阅读次数:
345
1. 支持向量 1.1 线性可分 首先我们先来了解下什么是线性可分。 在二维空间上,两类点被一条直线完全分开叫做线性可分。 简单说就是如图上这样,一个线(FX)把D1和D0分为两个类,FD1>0,FD2<0 1.2 最大间隔超平面 当进入一个三维的时候,这个分割就变成了一个木板,具体做的就是把这个分 ...
分类:
其他好文 时间:
2020-02-14 12:53:57
阅读次数:
84
作为一个Python选手,工作中需要的一些服务接口一般会用Flask来开发。 Flask非常容易上手,它自带的app.run(host="0.0.0.0", port=7001)用来调试非常方便,但是用于生产环境无论是处理高并发还是鲁棒性都有所欠缺,一般会配合WGSI容器来进行[生产环境的部署][1 ...
分类:
其他好文 时间:
2020-02-10 13:35:59
阅读次数:
90