认识

2025年02月07日

柏拉文

越努力，越幸运

一、认识

梯度下降 是一种优化算法，主要用于 最小化损失函数，从而调整模型参数，提高预测准确性。在深度学习和机器学习中，它是最常见的优化方法之一。

梯度下降 用于优化模型，使损失函数最小化。Adam 是目前最常用的优化算法。学习率过大或过小都会影响收敛

目标: 最小化损失函数，模型的损失函数通常是关于参数（如权重 $W$ 和偏置 $B$ ）的函数： $L(W,B)$ 。梯度下降的目标是找到参数 $W$ 和 $B$ 的最优值，使损失函数 $L$ 取最小值。

梯度（Gradient）: 梯度是损失函数对参数的 偏导数，表示损失函数在该点的变化率：

\nabla L = \left( \frac{\partial L}{\partial W}, \frac{\partial L}{\partial B} \right)

梯度的方向指向 损失函数上升最快的方向，所以我们需要沿 负梯度方向 更新参数，使损失减小。

\theta := \theta - \alpha \nabla L

其中:

核心思想：沿着 负梯度方向 一步步调整参数，直到找到最优解。

学习率（Learning Rate, $\alpha$ ）的影响: 学习率 $\alpha$ 是梯度下降的关键超参数: