Xavier初始化
推导
假设第l层的输入向量为(各元素均具有零均值和方差Var(x)),这一层的权重矩阵为 (各元素独立且均值为0,方差为Var(W)),则该层线性变换的输出(未经过激活函数)为
假设输入维度为
则第l层的第i个神经元
- 是第i个神经元的净输入(即在应用激活函数之前的值)。
- 是前一层的第j个神经元的输出。
- 是连接前一层的第j个神经元到当前层的第i个神经元的权重。
- 是当前层第i个神经元的偏置。
根据方差叠加的性质
为使输出方差保持一致,令
Var(W)=\frac{1}{n_{in}}
在反向传播中可以类似的得到 $$Var(W)=\frac{1}{n_{out}}$$ 折中取均值$$Var(w)=\frac{2}{n_{in}+n_{out}}$$