跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


动量梯度下降(Momentum)优化算法的参数更新公式 通过 惯性项 vtv_t 使梯度下降更加稳定, 可以减少 SGD 的震荡问题

二、公式


vt=βvt1αLv_t = \beta v_{t-1} - \alpha \nabla L W:=W+vtW := W + v_t