推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

梯度累积与混合精度训练

更新时间:2026-03-01 10:29:44 大小:17K 上传用户:江岚查看TA发布的资源 标签:梯度累积 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

(一)基本原理

梯度累积(Gradient Accumulation)是一种在深度学习训练中,通过将多个小批次(Mini-Batch)的梯度累加起来,再进行参数更新的技术。在显存资源有限的情况下,无法使用较大的批次大小时,梯度累积可以模拟更大批次训练的效果。

传统的批次训练中,每个批次计算梯度后立即更新参数。而梯度累积则是每计算完一个小批次的梯度后,不立即更新参数,而是将梯度暂存并累加,当累积到一定次数(即达到预设的累积步数)后,再用累加的梯度进行一次参数更新,并重置梯度。

(二)实现步骤

1. 初始化梯度累积计数器,设置累积步数(如N)。

2. 对于每个训练迭代:

o 读取一个小批次数据。

o 前向传播计算模型输出和损失。

o 反向传播计算当前批次的梯度。

o 将当前批次的梯度累加到之前的梯度上(不更新参数)。

o 累积计数器加1,若达到累积步数N:

§ 使用累加的梯度进行参数更新。

§ 重置梯度和累积计数器。


部分文件列表

文件名 大小
梯度累积与混合精度训练.docx 17K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载