跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


随机梯度下降(Stochastic Gradient Descent, SGD 计算速度快,适用于大规模数据, 可能跳出局部最优(适用于非凸优化)。但是方向不稳定,参数更新有很大波动, 可能无法收敛到最优解

二、公式


每次随机选取 一个样本 计算梯度并更新参数:

W:=WαLiW := W - \alpha \cdot \nabla L_i