您现在的位置是:首页 > 技术资料 > 缩放定律
推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

缩放定律

更新时间:2026-06-15 08:11:58 大小:15K 上传用户:潇潇江南查看TA发布的资源 标签:缩放定律 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

缩放定律(Scaling Law,也可译为规模定律、标度律)是人工智能领域近年最重要的经验性发现之一,它描述了大语言模型等深度神经网络的性能表现,和模型参数量、训练数据量、训练计算量三个核心变量之间呈现出稳定的幂律关系:随着这三个变量的规模扩大,模型性能会按照可预测的规律持续提升,不会过早出现收益饱和。

核心内容与形式

缩放定律的经典表达式由OpenAI团队在2020年的论文《Scaling Laws for Neural Language Models》中正式提出,对于自回归语言模型,交叉熵损失(衡量模型预测误差,数值越低性能越好)和三个核心变量满足如下幂律关系:

 

 

 

其中:

· N:模型可训练参数量,

· D:训练数据token数量,

· F:训练过程消耗的总浮点运算量(FLOPs),

· $B$:任务的不可约最小损失(即数据本身自带的噪声下界),$A, C, E$为常数项

这个公式的核心含义是:损失会随着规模的增长呈幂次下降,只要按照规律放大三个变量,模型性能就会持续提升,不存在天然的性能天花板。只要保持计算效率,最优的策略是用更多的计算量训练更大的模型,搭配足够多的训练数据,而不是在小模型上优化结构。


部分文件列表

文件名 大小
缩放定律.docx 15K

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载