- 1
- 2
- 3
- 4
- 5
缩放定律
资料介绍
缩放定律(Scaling Law,也可译为规模定律、标度律)是人工智能领域近年最重要的经验性发现之一,它描述了大语言模型等深度神经网络的性能表现,和模型参数量、训练数据量、训练计算量三个核心变量之间呈现出稳定的幂律关系:随着这三个变量的规模扩大,模型性能会按照可预测的规律持续提升,不会过早出现收益饱和。
核心内容与形式
缩放定律的经典表达式由OpenAI团队在2020年的论文《Scaling Laws for Neural Language Models》中正式提出,对于自回归语言模型,交叉熵损失(衡量模型预测误差,数值越低性能越好)和三个核心变量满足如下幂律关系:
其中:
· N:模型可训练参数量,![]()
· D:训练数据token数量,![]()
· F:训练过程消耗的总浮点运算量(FLOPs),![]()
· $B$:任务的不可约最小损失(即数据本身自带的噪声下界),$A, C, E$为常数项
这个公式的核心含义是:损失会随着规模的增长呈幂次下降,只要按照规律放大三个变量,模型性能就会持续提升,不存在天然的性能天花板。只要保持计算效率,最优的策略是用更多的计算量训练更大的模型,搭配足够多的训练数据,而不是在小模型上优化结构。
部分文件列表
| 文件名 | 大小 |
| 缩放定律.docx | 15K |
最新上传
-
x1707 打赏1.00元 6小时前
-
lanmukk 打赏60.00元 3天前
-
lanmukk 打赏10.00元 3天前
-
21ic小能手 打赏5.00元 3天前
-
21ic下载 打赏310.00元 3天前
用户:江岚
-
21ic下载 打赏310.00元 3天前
用户:mulanhk
-
21ic下载 打赏310.00元 3天前
用户:潇潇江南
-
21ic下载 打赏210.00元 3天前
用户:小猫做电路
-
21ic下载 打赏210.00元 3天前
用户:gsy幸运
-
21ic下载 打赏210.00元 3天前
用户:zhengdai
-
21ic下载 打赏140.00元 3天前
用户:jh0355
-
21ic下载 打赏130.00元 3天前
用户:jh03551
-
21ic下载 打赏60.00元 3天前
用户:lanmukk
-
21ic下载 打赏60.00元 3天前
用户:kkkopj
-
21ic下载 打赏70.00元 3天前
用户:cooldog123pp
-
21ic下载 打赏20.00元 3天前
用户:烟雨
-
21ic下载 打赏20.00元 3天前
用户:xuzhen1
-
21ic下载 打赏20.00元 3天前
用户:sun2152
-
21ic下载 打赏20.00元 3天前
用户:w178191520
-
21ic下载 打赏15.00元 3天前
用户:w1966891335
-
21ic下载 打赏15.00元 3天前
用户:w993263495
-
21ic下载 打赏15.00元 3天前
用户:x15580286248
-
21ic下载 打赏15.00元 3天前
用户:liqiang9090
-
21ic下载 打赏15.00元 3天前
用户:kk1957135547
-
21ic下载 打赏5.00元 3天前
用户:创园船热情
-
21ic下载 打赏5.00元 3天前
用户:ytf4210
-
21ic下载 打赏10.00元 3天前
用户:有理想666
-
13806677280 打赏1.00元 3天前
-
21下载积分 打赏20.00元 3天前
用户:white工
-
Lzhf918@ 打赏10.00元 3天前
-
21ic下载 打赏310.00元 3天前
用户:mulanhk
-
21ic下载 打赏310.00元 3天前
用户:lanmukk
-
21ic下载 打赏310.00元 3天前
用户:zhengdai
-
21ic下载 打赏240.00元 3天前
用户:江岚
-
21ic下载 打赏240.00元 3天前
用户:潇潇江南
-
21ic下载 打赏210.00元 3天前
用户:gsy幸运
-
21ic下载 打赏70.00元 3天前
用户:小猫做电路
-
21ic下载 打赏120.00元 3天前
用户:jh0355
-
21ic下载 打赏110.00元 3天前
用户:jh03551
-
21ic下载 打赏70.00元 3天前
用户:liqiang9090




全部评论(0)