您现在的位置是:首页 > 技术资料 > 参数高效微调
推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

参数高效微调

更新时间:2026-06-30 08:22:25 大小:15K 上传用户:江岚查看TA发布的资源 标签:参数微调 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

一、PEFT的核心背景与价值

随着大语言模型(LLM)和基础视觉模型参数规模从亿级突破至万亿级,传统全参数微调(Full Fine-Tuning)的成本瓶颈日益凸显:全参数微调需要为每一个下游任务保存一套完整的模型参数,万亿参数模型单任务存储成本就达到数十GB,同时训练过程对GPU显存的要求极高,单张消费级GPU根本无法完成7B参数以上模型的全参数微调。

在这样的行业背景下,**参数高效微调(Parameter-Efficient Fine-TuningPEFT**应运而生。PEFT的核心思路是:冻结预训练模型的大部分原始参数,只微调一小部分额外添加的参数,就能让模型适配特定下游任务,在效果接近全参数微调的前提下,大幅降低训练的显存占用、存储成本与训练时间。目前PEFT已经成为大模型落地私有场景、行业场景的标配微调方案。

二、PEFT主流技术方案

目前PEFT领域已经发展出多种成熟技术路线,应用最广泛的包括以下四类:

1. 增量微调(Adapter Tuning

Adapter的核心思路是在预训练模型的每一层(或部分层)之间插入小型的瓶颈结构(Adapter模块),训练过程中冻结原始模型的所有参数,只更新Adapter模块的参数。

典型Adapter模块结构是「降维-非线性激活-升维」的瓶颈结构:假设原始模型层的输出维度是dAdapter先将维度降到更小的r(瓶颈维度,远小于d),经过激活层后再升维回d,输出结果和原始输出残差连接。这种结构下,单个Adapter的参数量只有2*d*r,在多层插入后总参数量仍然远小于全模型参数。

Adapter的优势是对原始模型的推理延迟增加极小,结构灵活,缺点是需要修改模型结构,部署时需要针对每个任务加载对应的Adapter模块。


部分文件列表

文件名 大小
参数高效微调.docx 15K

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载