登录    |    注册

随机梯度下降(SGD:Stochastic GradientDescent)

2020-09-09 16:59:32

随机梯度下降是用于训练阶段学习网络参数的基于梯度的优化算法。梯度通常使用反向传播算法计算。使用微小批量版本的 SGD,其中的参数更新基于批案例而非单个案例进行执行,这能增加计算效率。vanilla SGD 存在许多扩展,包括动量(Momentum)、Adagrad、rmsprop、Adadelta或 Adam。