跳到主要内容

认识

2025年02月07日
柏拉文
越努力,越幸运

一、认识


批量梯度下降(Batch Gradient Descent, BGD 方向稳定,容易收敛到全局最优, 适用于小型数据集。 但是, 计算量大,每次更新都要计算整个数据集的梯度, 收敛速度慢,不适合大规模数据。

二、公式


每次使用 整个训练集 计算损失和梯度,然后更新参数:

W:=Wα1Ni=1NLiW := W - \alpha \cdot \frac{1}{N} \sum_{i=1}^{N} \nabla L_i