- 1
- 2
- 3
- 4
- 5
人类反馈强化学习
资料介绍
基本概念
人类反馈强化学习是一种将人类偏好融入大型语言模型训练的深度学习方法,核心是利用人类对模型输出的评分或排序反馈,训练一个奖励模型(Reward Model, RM),再通过强化学习算法,基于奖励模型给出的信号对策略模型进行优化,让模型输出更符合人类预期、更贴合人类价值观与需求的结果。
在大语言模型发展早期,预训练模型主要通过大规模无标注文本的自监督学习完成,能够学习到语言的语法规则与通用知识,但难以对齐人类的偏好——模型可能生成语法正确但内容错误、有害、不符合人类需求的输出,RLHF就是解决模型对齐问题的核心技术之一,目前已经成为ChatGPT、GPT-4、 Claude、文心一言等主流大语言模型的标配训练流程。
RLHF的核心训练流程
完整的RLHF训练流程分为三个核心阶段:
1. 预训练初始策略模型
第一步,首先在大规模文本语料上通过自监督学习预训练一个基础语言模型(Base LLM),这个阶段和传统大模型预训练没有区别,目标是让模型学习通用的语言表征与世界知识,获得基础的文本生成能力。这个预训练好的基础模型,就是后续强化学习调优的初始策略模型。
2. 基于人类反馈训练奖励模型
这一步是RLHF区别于传统预训练微调的核心,流程分为两步:
1. 收集人类标注数据:从训练数据集中采样prompt(问题/指令),输入第一步得到的初始策略模型,让模型生成多个不同的输出结果;然后邀请人类标注员对这些输出结果按照符合人类偏好的程度进行排序、评分或者比较,比如对于问题“介绍一下北京的景点”,模型生成的三个回答A、B、C,标注员会给出排序A>B>C,代表A最符合需求,其次是B,C最差。
部分文件列表
| 文件名 | 大小 |
| 人类反馈强化学习.docx | 15K |
最新上传
-
lanmukk 打赏60.00元 2天前
-
lanmukk 打赏10.00元 2天前
-
21ic小能手 打赏5.00元 2天前
-
21ic下载 打赏310.00元 3天前
用户:江岚
-
21ic下载 打赏310.00元 3天前
用户:mulanhk
-
21ic下载 打赏310.00元 3天前
用户:潇潇江南
-
21ic下载 打赏210.00元 3天前
用户:小猫做电路
-
21ic下载 打赏210.00元 3天前
用户:gsy幸运
-
21ic下载 打赏210.00元 3天前
用户:zhengdai
-
21ic下载 打赏140.00元 3天前
用户:jh0355
-
21ic下载 打赏130.00元 3天前
用户:jh03551
-
21ic下载 打赏60.00元 3天前
用户:lanmukk
-
21ic下载 打赏60.00元 3天前
用户:kkkopj
-
21ic下载 打赏70.00元 3天前
用户:cooldog123pp
-
21ic下载 打赏20.00元 3天前
用户:烟雨
-
21ic下载 打赏20.00元 3天前
用户:xuzhen1
-
21ic下载 打赏20.00元 3天前
用户:sun2152
-
21ic下载 打赏20.00元 3天前
用户:w178191520
-
21ic下载 打赏15.00元 3天前
用户:w1966891335
-
21ic下载 打赏15.00元 3天前
用户:w993263495
-
21ic下载 打赏15.00元 3天前
用户:x15580286248
-
21ic下载 打赏15.00元 3天前
用户:liqiang9090
-
21ic下载 打赏15.00元 3天前
用户:kk1957135547
-
21ic下载 打赏5.00元 3天前
用户:创园船热情
-
21ic下载 打赏5.00元 3天前
用户:ytf4210
-
21ic下载 打赏10.00元 3天前
用户:有理想666
-
13806677280 打赏1.00元 3天前
-
21下载积分 打赏20.00元 3天前
用户:white工
-
Lzhf918@ 打赏10.00元 3天前
-
21ic下载 打赏310.00元 3天前
用户:mulanhk
-
21ic下载 打赏310.00元 3天前
用户:lanmukk
-
21ic下载 打赏310.00元 3天前
用户:zhengdai
-
21ic下载 打赏240.00元 3天前
用户:江岚
-
21ic下载 打赏240.00元 3天前
用户:潇潇江南
-
21ic下载 打赏210.00元 3天前
用户:gsy幸运
-
21ic下载 打赏70.00元 3天前
用户:小猫做电路
-
21ic下载 打赏120.00元 3天前
用户:jh0355
-
21ic下载 打赏110.00元 3天前
用户:jh03551
-
21ic下载 打赏70.00元 3天前
用户:liqiang9090
-
21ic下载 打赏45.00元 3天前
用户:有理想666




全部评论(0)