您现在的位置是:首页 > 技术资料 > Actor 策略梯度概述
推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

Actor 策略梯度概述

更新时间:2026-03-14 11:24:57 大小:17K 上传用户:江岚查看TA发布的资源 标签:actor 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

Actor 策略梯度(Actor Policy Gradient)是强化学习(Reinforcement Learning, RL)中一种基于策略优化的核心方法,主要通过直接参数化智能体的策略函数,并利用梯度上升法最大化累积奖励的期望来学习最优策略。该方法属于无模型(model-free)强化学习范畴,适用于连续动作空间或大规模离散动作空间的问题,在机器人控制、游戏AI、自动驾驶等领域有广泛应用。

一、核心思想

Actor 策略梯度的核心思想是将智能体的策略表示为参数化函数πθ(a|s),其中θ为策略参数,s为环境状态,a为智能体选择的动作。通过采样智能体与环境交互的轨迹数据,计算策略参数θ对累积奖励期望的梯度,并沿梯度方向更新参数,使策略逐渐向更高奖励的方向优化。

与基于价值函数(如 Q-learning)的方法不同,Actor 策略梯度直接优化策略本身,无需显式学习价值函数,因此在处理连续动作空间时具有天然优势,且策略的随机性有助于探索环境中的潜在高奖励区域。

二、策略梯度定理

策略梯度方法的理论基础是策略梯度定理(Policy Gradient Theorem),该定理将累积奖励期望对策略参数的梯度表示为轨迹上每一步的状态-动作对的梯度与对应奖励权重的乘积之和。其数学表达式如下:

∇θJ(θ) = Eπθ[∑t=0T-1∇θlogπθ(at|st)·Gt]

其中,J(θ)为策略的目标函数(通常为累积奖励期望),Gt= rt+1+ γrt+2+ ... + γT-t-1rT为从时刻t开始的折扣累积奖励(γ为折扣因子,0 ≤ γ ≤ 1),Eπθ[·]表示在策略πθ下的期望。

策略梯度定理表明,策略参数的更新方向由每个动作的对数概率梯度与该动作带来的累积奖励的乘积决定,即“奖励越高的动作,其对应策略参数的梯度权重越大”。


部分文件列表

文件名 大小
Actor_策略梯度概述.docx 17K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载