登录    |    注册

Adagrad Adagrad

2020-09-09 16:43:37

是一种自适应学习率算法,能够随时间跟踪平方梯度并自动适应每个参数的学习率。它可被用来替代vanillaSGD (#sgd),稀疏数据上更是特别有用,可以将更高的学习率分配给更新不频繁的参数。 论文:用于在线学习和随机优化的自适应次梯度方法