权重衰减

权重衰减是最广泛使用的的正则化技术之一,通常称为L2正则化
损失函数:

L (w, b) = \frac{1}{2} i = 0 \sum n (w x_{i} + b - \overset{y_{i}}{^})^{2}

为了惩罚权重w的大小,权重衰减在损失函数中添加了平方范数^[L2范数的平方]作为正则项

L (w, b) = \frac{1}{2} i = 0 \sum n (w x_{i} + b - \overset{y_{i}}{^})^{2} + \frac{λ}{2} ∥ w ∥^{2}

其中 $λ$ 用于控制正则化强度
小批量随机梯度下降:

w \leftarrow w - \frac{η}{∣ β ∣} i \in β \sum δ_{w} l (w, b) w \leftarrow w - \frac{η}{∣ β ∣} i \in β \sum x^{(i)} (w^{T} x^{(i)} + b - y^{(i)}) b \leftarrow b - \frac{η}{∣ β ∣} i \in β \sum δ_{b} l (w, b) b \leftarrow b - \frac{η}{∣ β ∣} i \in β \sum (w^{T} x^{(i)} + b - y^{(i)})

在损失函数这里加入正则项 $\frac{λ}{2} ∣∣ w ∣ ∣^{2}$ ,并简化:

w \leftarrow w - \frac{η}{∣ β ∣} i \in β \sum δ_{w} (l (w, b) + \frac{λ}{2} ∣∣ w ∣ ∣^{2}) w \leftarrow w - \frac{η}{∣ β ∣} i \in β \sum [x^{(i)} (w^{T} x^{(i)} + b - y^{(i)}) + \frac{λ}{2} (2 w)] w \leftarrow (1 - η λ) w - \frac{η}{∣ β ∣} i \in β \sum [x^{(i)} (w^{T} x^{(i)} + b - y^{(i)})

权重衰减的简洁实现

# 定义轮数,学习率
num_epochs, lr = 100, 0.003
 
# 创建神经网络
net = nn.Sequential(nn.Linear(num_inputs, 1))
# 正态分布初始化权重|偏置参数
# net.parameters()返回神经网络的所有可训练参数:[权重,偏置]
# param.data返回这些参数的直接数据,不包括计算图,梯度等
for param in net.parameters():
        param.data.normal_()
# 使用均方误差损失函数
loss = nn.MSELoss(reduction='none')
# 使用随机梯度下降优化器
# net[0]为神经网络的第一层,这里只对权重参数设置了衰减
trainer = torch.optim.SGD([
        {"params":net[0].weight,'weight_decay': wd},
        {"params":net[0].bias},
        ], lr=lr)
# 开始训练
for epoch in range(num_epochs):
		# 从迭代器获取数据
        for X, y in train_iter:
	        # 清除梯度
            trainer.zero_grad()
            # 计算损失
            l = loss(net(X), y)
            # 反向传播
            l.mean().backward()
            # 更新参数
            trainer.step()

🪴Jhwww

FOLDER

FOLDER

权重衰减

权重衰减的简洁实现

Graph View

Backlinks