数值稳定性和模型初始化

梯度爆炸与梯度消失

在这之前先回顾一下梯度下降是如何更新的

输入层输入x并经过多个隐藏层最后到输出层
假设第i层的权重为 $w_{i}$ 偏移为 $b_{i}$ 激活函数为 $ϕ_{i}$
那么整个神经网络可以看作为:

\overset{y}{^} = w_{i} (\dots ϕ_{2} ((w_{2} ϕ_{i} (w_{1} x + b_{1})) + b_{2}) \dots + b_{i})

目的是不断优化目标函数J=损失函数 $L (y, \overset{y}{^})$ +正则项s的最小值
通过不断的求偏导来更新 $w_{i} 与 b_{i}$

当深度神经网络的层数较多,而每一层的偏导都大于1时,根据链式法则,他们相乘会导致指数爆炸,模型无法收敛

与梯度爆炸相反,当每一层的偏导都小于1时,根据链式法则,他们相乘会导致更新过小,模型训练进展拖慢甚至无法训练

解决上述问题的方法之一是参数初始化

默认情况下框架会根据层的类型自动初始化权重
大多数默认采用Xavier初始化(均匀分布)