极限学习机（ELM）的使用

时间：2016-05-12 20:54:22 阅读：282 评论：0 收藏：0 [点我收藏+]

标签：

极限学习机的理论

在传统的神经网络训练中，我们通常的做法是要通过梯度下降算法来不断的调整隐层与输出层，输出层与隐层之间的权值矩阵，以及偏置b。但是ELM算法指出，其实隐层的权值矩阵W和偏置b其实是没有必要调整的，在学习算法开始时，任意随机给定W和b的值，利用其计算出H（隐层节点的输出），并令其保持不变，需要确定的参数就只有 $\beta$ 了。这是一个比较重要的理论基础。

单隐层前向神经网络（SLFN）结构

设前向神经网络的输入层节点数量为 $P$ ,特征向量的维数与输入节点数量相同；hidden layer的节点数量为 $L$ .

则hidden layer的第i个节点的输出为：

g (x; w i, b i) = g (x w i + b i)

$g(x;w_i,b_i)=g(xw_i+b_i)$

则相当于将P维向量映射到L维向量：

h (x) = [g (x; w l, b l), . . . ., g (x; w L, b L)]

$h(x)=[g(x;w_l,b_l),....,g(x;w_L,b_L)]$
其中wi为第输入层节点与隐层节点之间的第i个链接，bi为偏置，g为激活函数,这里使用sigmoid函数：

g (x; w i, b i) = 1 1 + e ? ( x w i + b i )

$g(x;w_i,b_i)=\dfrac{1}{1+e^{-\left(xw_i+b_i\right)}}$
输出层的节点数记作M；第i个隐层节点和第j个输出层节点之间的权重为，则节点j的输出为：

f j (x) = \sum i = 1 L β i, j ? g (x; w i, b i) (6)

$f_j(x)=\sum^L_{i=1}{\beta_{i,j}*g(x;w_i,b_i)} (6)$

因此输入样本X，他对应的输出为： $f(x)=[f_1(x),....,f_M(x)]$ ，其中：

β = ? ? ? ? ? ? β 1 : : β L ? ? ? ? ? ? = ? ? ? ? ? ? β 1, 1 : : β L, 1 . . . : : . . . β 1, M : : β L, M ? ? ? ? ? ?

$\beta= \left[\begin{matrix} \beta_1\ : \ : \ \beta_L \ \end{matrix}\right] =\left[\begin{matrix} \beta_{1,1} & ... & \beta_{1,M} \ : & :& : \ : & : & : \ \beta_{L,1} & ... & \beta_{L,M} \ \end{matrix}\right]$

在识别阶段，给定一个样本X，则该样本所属类别为：

l a b e l (x) = a r g j = 1, . . . ., M m a x f j (x)

$label(x)=arg_{j=1,....,M}maxf_j(x)$

使用ELM训练SLFN分类器

在ELM算法中，input weight and biases 是随机分配的，因此只有 $\beta$ 需要训练

令 $y_k$ 表示输入 $x_k$ 对应的实际的输出向量，则将所有的训练样本带入公式（6）中可以得到：

H β = Y

$H\beta=Y$

其中：

H = ? ? ? ? ? ? h (x 1) : : h (x N) ? ? ? ? ? ? = ? ? ? ? ? ? g (x 1; w 1, b 1) : : g (x N; w 1, b 1) . . . : : . . . g (x 1; w L, b L) : : g (x N; w L, b L) ? ? ? ? ? ?

$H= \left[\begin{matrix} h(x_1)\ : \ : \ h(x_N) \ \end{matrix}\right] =\left[\begin{matrix} g(x_1;w_1,b_1) & ... & g(x_1;w_L,b_L)\ : & :& : \ : & : & : \ g(x_N;w_1,b_1) & ... & g(x_N;w_L,b_L) \ \end{matrix}\right]$

Y = ? ? ? ? ? ? y 1 : : y N ? ? ? ? ? ? = ? ? ? ? ? ? y 1, 1 : : y N, 1 . . . : : . . . y 1, M : : y N, M ? ? ? ? ? ?

$Y= \left[\begin{matrix} y_1\ : \ : \ y_N \ \end{matrix}\right] =\left[\begin{matrix} y_{1,1} & ... & y_{1,M}\ : & :& : \ : & : & : \ y_{N,1}& ... &y_{N,M} \ \end{matrix}\right]$

训练的目标是使得训练误差 $||T-H\beta||^2$ 和输出权重 $||\beta||$ 的范数最小。

因此训练过程可以表示为一个有约束最优化问题：

m i n i m i z e : ψ (β, ξ) = 1 2 | | β | | 2 + C 2 | | ξ | | 2 s u b j e c t t o : H β = T ? ξ

$minimize: \psi(\beta,\xi)=\frac{1}{2}||\beta||^2+\frac{C}{2}||\xi||^2 \\subject to:H\beta=T-\xi$
其中C是一个regularization factor，用来平衡拟合函数的平滑度和函数拟合值与真实数据距离差距这两者之间的关系。
可以使用拉格朗日法解决此问题，如果矩阵

(IC+HTH) $(\frac{I}{C}+H^TH)$ 为非奇异矩阵，则

β = (I C + H T H) ? 1 H T T

$\beta=(\frac{I}{C}+H^TH)^{-1}H^TT$
若矩阵非奇异，则还可有：

β = H T (I C + H H T) ? 1 T

$\beta=H^T(\frac{I}{C}+HH^T)^{-1}T$

可以看到，矩阵 $(\frac{I}{C}+H^TH)$ 是L*L维的矩阵，而 $(\frac{I}{C}+HH^T)$ 是N*N维矩阵，因此当训练样本很大时，可以使用（15）对（14）进行降维处理。

该方法只有两个参数要调节：1）隐层节点数L； 2）规范化系数C
训练速度要比传统的神经网络快

实验测试

实验采用的是标志牌识别实验。

使用标志牌识别数据集GTSRB进行测试。我直接使用的该数据集中已经提取好的HOG特征，输入神经网络中训练。

源代码可以参考我的github:https://github.com/JayYangSS/TrafficSignRecognition_ELM
本代码是基于作者的ELM源代码： http://www.ntu.edu.sg/home/egbhuang/

测试43个种类的标志牌，分类准确度：91.94%。限于计算机内存限制，没有使用全部的训练集样本，只使用了训练集的一半，如果使用全部的训练集相信精度可以更高。

极限学习机（ELM）的使用

标签：

原文地址：http://blog.csdn.net/jiyangsb/article/details/51354488

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行