跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


梯度下降 是一种优化算法,主要用于 最小化损失函数,从而调整模型参数,提高预测准确性。在深度学习和机器学习中,它是最常见的优化方法之一。

梯度下降 用于优化模型,使损失函数最小化。Adam 是目前最常用的优化算法。学习率过大或过小都会影响收敛

1.1 目标

目标: 最小化损失函数, 模型的损失函数通常是关于参数(如权重 WW 和偏置 BB)的函数:L(W,B)L(W,B)。梯度下降的目标是 找到参数 WWBB 的最优值,使损失函数 LL 取最小值。

1.2 梯度

梯度(Gradient: 梯度是损失函数对参数的 偏导数,表示损失函数在该点的变化率:

L=(LW,LB)\nabla L = \left( \frac{\partial L}{\partial W}, \frac{\partial L}{\partial B} \right)

梯度的方向指向 损失函数上升最快的方向,所以我们需要沿 负梯度方向 更新参数,使损失减小。

1.3 参数更新公式

θ:=θαL\theta := \theta - \alpha \nabla L

其中:

  • θ\theta 表示参数(如 WWBB)

  • α\alpha 是学习率(learning rate),控制步长

  • L\nabla L 是损失函数的梯度

核心思想:沿着 负梯度方向 一步步调整参数,直到找到最优解。

学习率(Learning Rate, α\alpha)的影响: 学习率 α\alpha 是梯度下降的关键超参数:

  • 学习率过大:跳过最优点,无法收敛

  • 学习率过小:收敛速度慢,训练时间长

  • 解决方案:使用 动态学习率(如 AdamRMSprop