ArtificialIntelligence神经网络算法梯度下降Adam认识本页总览认识2025年02月07日柏拉文越努力,越幸运 一、认识 Adam(Adaptive Moment Estimation) 优化算法的参数更新公式 结合了 Momentum 和 RMSprop 优势,是当前最常用的优化算法。 二、公式 mt=β1mt−1+(1−β1)∇Lm_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla Lmt=β1mt−1+(1−β1)∇L vt=β2vt−1+(1−β2)(∇L)2v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L)^2vt=β2vt−1+(1−β2)(∇L)2 W:=W−αvt+ϵmtW := W - \frac{\alpha}{\sqrt{v_t} + \epsilon} m_tW:=W−vt+ϵαmt