推荐星级:
- 1
- 2
- 3
- 4
- 5
基于知识的深度强化学习研究综述
资料介绍
作为解决序贯决策的机器学习方法,强化学习采取持续的“交互-试错”机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。
部分文件列表
文件名 | 大小 |
基于知识的深度强化学习研究综述.pdf | 2M |
部分页面预览
(完整内容请下载后查看)第
卷
第
期
系统工程与电子技术
39
11
Vol.39 No.11
ꢀ
ꢀ
年
2017 11
月
SstemsEnineerin andElectronics
ꢀ g
y g
November2017
:
( )
1001506X201711260311
-
:
网址
www.ssele.com
文章编号
-
-
ꢀ
y
-
基于知识的深度强化学习研究综述
1 1 1 1 1
,
李晨溪 曹 雷 张永亮 陈希亮 周宇欢 段理文
2
,
,
,
,
ꢀ
( ,
解放军理工大学指挥信息系统学院 江苏 南京
1.
;
210007
,
浙江大学机械工程学院 浙江 杭州
2.
)
310027
: , “ ” , (
要 作为解决序贯决策的机器学习方法 强化学习采取持续的 交互 试错 机制 实现智能体
-
)
摘
A ent
ꢀꢀ
ꢀ
g
, , 。
与环境的不断交互 从而学得完成任务的最优策略 契合了人类提升智能的行为决策方式 知识作为一种包含了
、 、 ,
经验 价值观 认知规律以及专家见解等要素的结构化信息 应用于强化学习可以有效提高
,
的学习效率 降
A ent
g
。 , ,
低学习难度 鉴于此 本文以强化学习的基本理论为起点 对深度强化学习以及基于知识的深度强化学习研究成
。
果进行了系统性的总结与梳理
: ; ; ;
关键词 深度强化学习 知识 探索策略 逆强化学习
:
:
文献标志码
A
:
DOI10.3969 .issn.1001506X.2017.11.30
ꢀꢀꢀꢀ
-
/
中图分类号
TP18
ꢀ ꢀꢀꢀꢀ
j
:
Knowledebaseddee reinforcementlearnin areview
ꢀ
g-
p
ꢀ
ꢀ
ꢀ
g
1
1
1
1
1
2
,
,
, , ,
CHEN Xilian ZHOU Yuhuan DUANLiwen
g
ꢀ ꢀ ꢀ
LIChenxi CAOLei ZHANG Yonlian
ꢀ ꢀ
g
ꢀ
ꢀ ꢀ
g
(
,
,
1.Instituteo CommandIn ormationSstem PLAUniversit o ScienceandTechnolo
gy
,
;
Nanin 210007 China
j g
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
f
f
y f
ꢀ ꢀ
ꢀ
ꢀ
, , ,
2.Colleeo MechanicalEnineerin Zheian Universit Han zhou310027 China
ꢀ
)
ꢀ
f
ꢀ
g
g
g
j
g
ꢀ
y
g
ꢀ
:
Abstract Asanim ortantmethodtosolveseuentialdecision roblems reinforcementlearnin adotsa
ꢀꢀ ꢀ ꢀ p ꢀ ꢀ ꢀ q ꢀp
p ꢀ
,
ꢀ
ꢀ
ꢀ
g
ꢀ
“
”
,
mechanismof trialanderror tointeractwiththeenvironment inordertolearnthe olic ofthetask.Know
ꢀ
ꢀ ꢀ ꢀp y ꢀ ꢀ -
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
,
,
lede asakindofstructuredinformation whichcontainstheelementsofexerience values conitiverules
ꢀꢀ ꢀ ꢀ ꢀ ꢀ p
,
g
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
andexertoinions canbeeffectivel usedtoim rovethelearnin efficienc ofreinforcementlearnin .This
ꢀ p ꢀp ꢀ ꢀ ꢀ ꢀ p
y
ꢀ
ꢀ
ꢀ
g
ꢀ
y
ꢀ
ꢀ
ꢀ
g
,
aertakesthebasictheor ofreinforcementlearnin asastartin oint andsstematicall summarizesthe
pp ꢀ gp
ꢀꢀ ꢀy
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
g
ꢀ
y
ꢀ
ꢀ
ꢀ
dee reinforcementlearnin andknowledebasedreinforcementlearnin .
ꢀ ꢀ - ꢀ ꢀ
p
ꢀ
g
ꢀ
g
g
:
Kewords dee reinforcementlearnin knowlede exlorationstrate inversereinforcementlearnin
g
;
g
;
;
gy
p
ꢀ
ꢀ
g
p
ꢀ
ꢀ
ꢀ
y
, “ ” ,
然而 强化学习 交互 试错 的学习机制 使其常常面
-
引
言
ꢀ
0
ꢀ
: 、 、
临 状态 动作空间的维度灾难 探索与利用的矛盾 时间
-
[
1-2
]
。 , ,
信度分配等问题 其中 状态和动作维度过高 使得
A ent
g
,
来源于心理学中的行为主义 作为解决序
强化学习
ꢀꢀ
,
在巨大的状态 动作空间下 很难或无法遍历所有的情况
-
,
, “ ” ,
贯决策的重要方法 它采取持续的 交互 试错 机制 通过
-
。
导致算法无法学到合理的策略 在学 习过程中
,
A ent
g
一
。
与环境的不断交互学得有效策略 强化学习过程反映了人
,
方面需要利用已有的经验选择能够获益最大的动作 另一
,
脑如何做出决策的反馈系统运行机理 符合人类面向实际问
, ,
方面需要扩大搜索范围 选择以前没有选择过的动作 探索
。 ,
题时的经验性思维与直觉推理的一般决策过程 因而 近年
, 。
未知的空间 以期寻找到更优的动作 环境的反馈信号具
, ,
来 强化学习在人工智能领域得到广泛而深入地应用 并成为
,
有延迟性和稀疏性 即
在执行多步动作之后才会获
A ent
g
。
当前突破类人智能的关键性机器学习方法 强化学习在视频
[
]
3-8
、
[
]
0
、
[
]
1-12
、
用
9-1
1
, 。
得奖赏 中间动作都没有收到反馈信号 解决上述问题的
游戏
棋牌类游戏
物理系统的导航与控制
[ ]
13
户交互算法 等领域的表现已经接近或超过了人类水平
, ,
一个比较好的办法是 对人类知识的充分利用 这也正符合
。
。
人类在改造世界过程中面对一般性决策问题的思维方式
、
团队将深度学习 深度强化学习 与
特别是
Dee Mind
p
、 、
知识作为一种包含了经验 价值观 认知规律以及专家
,
蒙特卡 罗 树 搜 索 技 术 深 度 融 合 研 发 出 的 智 能 围 棋 程 序
,
(
) ,
战胜李世乭 年
2017
, 、
见解等要素的结构化组合 是一种依赖于语境 面向人员的
在
AlhaGo 2016
p
年
月
3
AlhaGoLee
p
ꢀ
(
)
战 胜 世 界 围 棋 冠 军 柯 洁 展 现 出 了
AlhaGoMaster
p
ꢀ
,
,
更加注重效用的关联信息 具有目的性和应用性两大基本
月
5
。
。 [ ]
特征 正如文献 指出 知识比数据和信息更有价值是
14
,“
强化学习的巨大潜力
:
;
:
;
:
。
收稿日期
修回日期
网络优先出版日期
2017-02-14
2017-06-08
2017-06-29
: ://
htt
p
/
/ /
kns.cnki.netkcmsdetail11 .2422 .T N .20170629 .1732 .008 .html
网络优先出版地址
:
基金项目 总装备部预研基金
(
);
中国博士后科学基金第八批特别项目
(
);
中国博士后科学基金第
60
9140 A06020315JB25081
2015T81081
(
);
江苏省自然科学基金青年基金面上项目
( )
资助课题
B K20140075
批面上项目
2016 M 6029174
·
2604
ꢀ
·
系统工程与电子技术
第
卷
39
ꢀ
ꢀ
,
因为它更贴近行动 知识是行动和决策的依据和指南
。”
()
1 S
;
表示状态集
ꢀꢀ
、
将人类的领域知识 隐性经验和高质量数据应用于强
()
2 A
;
表示动作集
, , ,
化学习 可以有效提高学习效率 降低学习难度 成为当前
() ( ,)
,
表示状态 下采取动作 之后 转移到
a
3 Ps′sa
|
s
。
研究的一个重要方向 本综述以强化学习的基本理论为起
;
状态的概率
s′
, ,
点 首先介绍了强化学习的基本概念和基础算法 然后结合
() (,) 。
表示状态 下采取动作 获得的奖励
a
4 Rsa
s
;
近年来公开文献给出深度强化学习的概念及模型 梳理国
,
策略的目标是使未来的累积奖赏最大 因而当前状态
,
内外典型的基于知识的深度强化学习方法 即专家在线指
(
) (
或状态 动作对 的好坏可以通过该状态 状态 动作对
-
)
-
、 、 、
导 回报函数设计 启发式探索策略 模仿学习这 种方法
4
;
。
能够带来的未来累积回报的大小来衡量 强化学习引入回
,
最后 对基于知识的深度强化学习方法进行了总结与展望
。
:
报函数来表示某个时刻 的状态下具备的回报值
t
∞
2
k
…
()
1
R
t
r
t 1
+
r
+γ
t 2
+
r
+γ
t 3
+
r
γ
t 1 k
深度强化学习的概念及模型
=
+
=
+ +
1
ꢀ
∑
k 0
=
, ,
由于距离当前状态越远 回报值的不确定性越大 因而
ꢀꢀ
强化学习基础
1.1
ꢀ
,
一般采用 作为折扣系数 对未来的回报值乘以一个折扣
γ
强化学习与
模型
1.1.1
MDP
ꢀ
。
γ
, ,
进而 引入值函数的概念 用值函数来表示一个状态的
强化学习的学习过程是
与环境进行交互并从环
A ent
g
, 。
价值 也就是未来累积回报的期望 定义如下
:
。
境中取得反馈信息的学习过程 作为一种交互式的学习方
[
]
5
。
1
∞
,
法 强化学习的主要特点是试错和延迟回报
熿
燄
k
()
2
π
()
V s
r
s
|
t
+
s
=
γ
t 1 k
+
E
=
∑
k 0
=
,
与环境的交互过程 在每个时间步
A ent
g
图
展示了
1
燀
燅
,
,
,
环境根据
a
t
长
观察环境得到状态
A ent
g
然后执行动作
s
t
动作 状态价值函数就可表示为
-
ꢀꢀ
。
这样的过程可用马尔可夫决
生成下一时刻的
和
r
t
a
t
s
t+1
∞
熿
燄
(
,
)
来 进 行 描 述
Markovdecision rocesses MDP
ꢀp
。
策过程
k
ꢀ
()
3
π
(,)
Q sa
,
sa
= =
t
r
γ
t 1 k
+
s
t
a
|
+
E
=
∑
k 0
=
,
分为 个部分 也可称为四元组
4
〈 , , , 〉:
S A P R
MDP
燀
燅
强化学习基础算法
1.1.2
ꢀ
, :
从环境模型是否已知的角度 可以将强化学习分为 有
。
模型和无模型的强化学习方法 有模型的强化学习方法主
,
要基于动态规划的思想 使用
方程和
最优
Bellman
Bellman
。
方程进行策略迭代和值迭代 对于环境未知的强化学习方
, 。 ,
法 称之为无模型的强化学习方法 在这样的情况下 由于
, ,
无法对状态进行全概率展开 因而无法直接评估策略 只能
,
通过与环境的交互采样 观察状态的转移和环境返回的奖赏
图
强化学习示意图
1
ꢀ
。
值来进行学习 有关方法的分类和关系可以参见图
。
2
Fi .1 Reinforcementlearnin
g ꢀ ꢀ g
图
强化学习基本算法框架
2
ꢀ
Fi .2 Frameworkofreinforcementlearnin alorithms
ꢀ ꢀ ꢀ g g
ꢀ
g
ꢀ
全部评论(0)