Xavier初始化

推导

假设第l层的输入向量为(各元素均具有零均值和方差Var⁡(x)),这一层的权重矩阵为 (各元素独立且均值为0,方差为Var⁡(W)),则该层线性变换的输出(未经过激活函数)为

假设输入维度为
则第l层的第i个神经元

  • ​ 是第i个神经元的净输入(即在应用激活函数之前的值)。
  • ​ 是前一层的第j个神经元的输出。
  • 连接前一层的第j个神经元到当前层的第i个神经元的权重
  • 是当前层第i个神经元的偏置。

根据方差叠加的性质

为使输出方差保持一致,令

Var(W)=\frac{1}{n_{in}}

在反向传播中可以类似的得到 $$Var(W)=\frac{1}{n_{out}}$$ 折中取均值$$Var(w)=\frac{2}{n_{in}+n_{out}}$$