优化器

SGD

使用随机梯度下降优化参数
SGD(params, lr=0.01, momentum=0, dampening=0, weight_decay=0, nesterov=False)

(w, b) \leftarrow (w, b) - \frac{η}{∣ β ∣} δ_{w, b} l (w, b)

参数	解释
params	要优化的参数
lr	学习率 $η$
momentum	动量,加速梯度下降,并减少鞍点的动荡
dampening	动量的衰减因子默认0
weight_delay	权重衰减默认0
nesterov	是否使用nesterov动量默认False
$β$	批量大小