ArtificialIntelligence神经网络算法梯度下降Mini-Batch认识本页总览认识2025年02月07日柏拉文越努力,越幸运 一、认识 小批量梯度下降(Mini-Batch Gradient Descent) 计算效率较高(比 BGD 快,比 SGD 更稳定)。训练稳定,能够利用并行计算 二、公式 每次使用 一个小批量样本(如 32、64、128)计算梯度: W:=W−α⋅1m∑i=1m∇LiW := W - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \nabla L_iW:=W−α⋅m1i=1∑m∇Li