认识

2025年02月07日

柏拉文

越努力，越幸运

一、认识

Adam（Adaptive Moment Estimation） 优化算法的参数更新公式 结合了 Momentum 和 RMSprop 优势，是当前最常用的优化算法。

m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla L

v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L)^2

W := W - \frac{\alpha}{\sqrt{v_t} + \epsilon} m_t