跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


小批量梯度下降(Mini-Batch Gradient Descent 计算效率较高(比 BGD 快,比 SGD 更稳定)。训练稳定,能够利用并行计算

二、公式


每次使用 一个小批量样本(如 3264128)计算梯度:

W:=Wα1mi=1mLiW := W - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \nabla L_i