SGD

使用随机梯度下降优化参数
SGD(params, lr=0.01, momentum=0, dampening=0, weight_decay=0, nesterov=False)

参数解释
params要优化的参数
lr学习率
momentum动量,加速梯度下降,并减少鞍点的动荡
dampening动量的衰减因子 默认0
weight_delay权重衰减 默认0
nesterov是否使用nesterov动量 默认False
批量大小