跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


Adam(Adaptive Moment Estimation) 优化算法的参数更新公式 结合了 MomentumRMSprop 优势,是当前最常用的优化算法。

二、公式


mt=β1mt1+(1β1)Lm_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla L vt=β2vt1+(1β2)(L)2v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L)^2 W:=Wαvt+ϵmtW := W - \frac{\alpha}{\sqrt{v_t} + \epsilon} m_t