认识

2025年02月07日

柏拉文

越努力，越幸运

一、认识

小批量梯度下降（Mini-Batch Gradient Descent） 计算效率较高（比 BGD 快，比 SGD 更稳定）。训练稳定，能够利用并行计算

每次使用 一个小批量样本（如 32、64、128）计算梯度：

W := W - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \nabla L_i