认识
2025年02月07日
一、认识
梯度下降 是一种优化算法,主要用于 最小化损失函数,从而调整模型参数,提高预测准确性。在深度学习和机器学习中,它是最常见的优化方法之一。
梯度下降 用于优化模型,使损失函数最小化。Adam
是目前最常用的优化算法。学习率过大或过小都会影响收敛
1.1 目标
目标: 最小化损失函数, 模型的损失函数通常是关于参数(如权重 和偏置 )的函数:。梯度下降的目标是 找到参数 和 的最优值,使损失函数 取最小值。
1.2 梯度
梯度(Gradient
): 梯度是损失函数对参数的 偏导数,表示损失函数在该点的变化率:
梯度的方向指向 损失函数上升最快的方向,所以我们需要沿 负梯度方向 更新参数,使损失减小。
1.3 参数更新公式
其中:
-
表示参数(如 和 )
-
是学习率(
learning rate
),控制步长 -
是损失函数的梯度
核心思想:沿着 负梯度方向 一步步调整参数,直到找到最优解。
学习率(Learning Rate
, )的影响: 学习率 是梯度下降的关键超参数:
-
学习率过大:跳过最优点,无法收敛
-
学习率过小:收敛速度慢,训练时间长
-
解决方案:使用 动态学习率(如
Adam
、RMSprop
)