ArtificialIntelligence神经网络算法梯度下降SGD认识本页总览认识2025年02月07日柏拉文越努力,越幸运 一、认识 随机梯度下降(Stochastic Gradient Descent, SGD) 计算速度快,适用于大规模数据, 可能跳出局部最优(适用于非凸优化)。但是方向不稳定,参数更新有很大波动, 可能无法收敛到最优解 二、公式 每次随机选取 一个样本 计算梯度并更新参数: W:=W−α⋅∇LiW := W - \alpha \cdot \nabla L_iW:=W−α⋅∇Li