推荐星级：

基于知识的深度强化学习研究综述

更新时间：2019-12-25 14:38:34 大小：2M 上传用户：zhiyao6 查看TA发布的资源 标签：机器学习 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

作为解决序贯决策的机器学习方法,强化学习采取持续的“交互-试错”机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。

部分文件列表

文件名	大小
基于知识的深度强化学习研究综述.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

第

卷

第

期

系统工程与电子技术

３９

１１

Ｖｏｌ．３９Ｎｏ．１１

ꢀ

年

２０１７１１

月

ＳｓｔｅｍｓＥｎｉｎｅｅｒｉｎａｎｄＥｌｅｃｔｒｏｎｉｃｓ

ꢀ ｇ

ｙｇ

Ｎｏｖｅｍｂｅｒ２０１７



：

（）

１００１５０６Ｘ２０１７１１２６０３１１

－

：

网址

ｗｗｗ．ｓｓｅｌｅ．ｃｏｍ

文章编号

－

ꢀ

ｙ

－

基于知识的深度强化学习研究综述

１１１１１

，

李晨溪曹雷张永亮陈希亮周宇欢段理文

２

，

ꢀ

（，

解放军理工大学指挥信息系统学院江苏南京

１．

；

２１０００７

，

浙江大学机械工程学院浙江杭州

２．

）

３１００２７

：， “ ” ，（

要作为解决序贯决策的机器学习方法强化学习采取持续的交互试错机制实现智能体

－

）

摘

Ａｅｎｔ

ꢀꢀ

ꢀ

ｇ

，，。

与环境的不断交互从而学得完成任务的最优策略契合了人类提升智能的行为决策方式知识作为一种包含了

、、，

经验价值观认知规律以及专家见解等要素的结构化信息应用于强化学习可以有效提高

，

的学习效率降

Ａｅｎｔ

ｇ

。，，

低学习难度鉴于此本文以强化学习的基本理论为起点对深度强化学习以及基于知识的深度强化学习研究成

。

果进行了系统性的总结与梳理

：；；；

关键词深度强化学习知识探索策略逆强化学习

：

文献标志码

Ａ

：

ＤＯＩ１０．３９６９．ｉｓｓｎ．１００１５０６Ｘ．２０１７．１１．３０

ꢀꢀꢀꢀ

－

／

中图分类号

ＴＰ１８

ꢀ ꢀꢀꢀꢀ

ｊ

：

Ｋｎｏｗｌｅｄｅｂａｓｅｄｄｅｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎａｒｅｖｉｅｗ

ꢀ

ｇ^－

ｐ

ꢀ

ｇ

１

２

，

，，，

ＣＨＥＮＸｉｌｉａｎＺＨＯＵＹｕｈｕａｎＤＵＡＮＬｉｗｅｎ

ｇ

ꢀ ꢀ ꢀ

ＬＩＣｈｅｎｘｉＣＡＯＬｅｉＺＨＡＮＧＹｏｎｌｉａｎ

ꢀ ꢀ

ｇ

ꢀ

ꢀ ꢀ

ｇ

（

，

１．ＩｎｓｔｉｔｕｔｅｏＣｏｍｍａｎｄＩｎｏｒｍａｔｉｏｎＳｓｔｅｍＰＬＡＵｎｉｖｅｒｓｉｔｏＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏ

ｇｙ

，

；

Ｎａｎｉｎ２１０００７Ｃｈｉｎａ

ｊｇ

ꢀ

ｙ

ꢀ

ｆ

ｙｆ

ꢀ ꢀ

ꢀ

，，，

２．ＣｏｌｌｅｅｏＭｅｃｈａｎｉｃａｌＥｎｉｎｅｅｒｉｎＺｈｅｉａｎＵｎｉｖｅｒｓｉｔＨａｎｚｈｏｕ３１００２７Ｃｈｉｎａ

ꢀ

）

ꢀ

ｆ

ꢀ

ｇ

ｊ

ｇ

ꢀ

ｙ

ｇ

ꢀ

：

ＡｂｓｔｒａｃｔＡｓａｎｉｍｏｒｔａｎｔｍｅｔｈｏｄｔｏｓｏｌｖｅｓｅｕｅｎｔｉａｌｄｅｃｉｓｉｏｎｒｏｂｌｅｍｓｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎａｄｏｔｓａ

ꢀꢀ ꢀ ꢀ ｐ ꢀ ꢀ ꢀ ｑ ꢀｐ

ｐ ꢀ

，

ꢀ

ｇ

ꢀ

“

”

，

ｍｅｃｈａｎｉｓｍｏｆｔｒｉａｌａｎｄｅｒｒｏｒｔｏｉｎｔｅｒａｃｔｗｉｔｈｔｈｅｅｎｖｉｒｏｎｍｅｎｔｉｎｏｒｄｅｒｔｏｌｅａｒｎｔｈｅｏｌｉｃｏｆｔｈｅｔａｓｋ．Ｋｎｏｗ

ꢀ

ꢀ ꢀ ꢀｐｙ ꢀ ꢀ －

ꢀ

，

ｌｅｄｅａｓａｋｉｎｄｏｆｓｔｒｕｃｔｕｒｅｄｉｎｆｏｒｍａｔｉｏｎｗｈｉｃｈｃｏｎｔａｉｎｓｔｈｅｅｌｅｍｅｎｔｓｏｆｅｘｅｒｉｅｎｃｅｖａｌｕｅｓｃｏｎｉｔｉｖｅｒｕｌｅｓ

ꢀꢀ ꢀ ꢀ ꢀ ꢀ ｐ

，

ｇ

ꢀ

，

ａｎｄｅｘｅｒｔｏｉｎｉｏｎｓｃａｎｂｅｅｆｆｅｃｔｉｖｅｌｕｓｅｄｔｏｉｍｒｏｖｅｔｈｅｌｅａｒｎｉｎｅｆｆｉｃｉｅｎｃｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎ．Ｔｈｉｓ

ꢀ ｐ ꢀｐ ꢀ ꢀ ꢀ ꢀ ｐ

ｙ

ꢀ

ｇ

ꢀ

ｙ

ꢀ

ｇ

，

ａｅｒｔａｋｅｓｔｈｅｂａｓｉｃｔｈｅｏｒｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎａｓａｓｔａｒｔｉｎｏｉｎｔａｎｄｓｓｔｅｍａｔｉｃａｌｌｓｕｍｍａｒｉｚｅｓｔｈｅ

ｐｐ ꢀ ｇｐ

ꢀꢀ ꢀｙ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

ｙ

ꢀ

ｄｅｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎａｎｄｋｎｏｗｌｅｄｅｂａｓｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎ．

ꢀ ꢀ － ꢀ ꢀ

ｐ

ꢀ

ｇ

ꢀ

ｇ

：

Ｋｅｗｏｒｄｓｄｅｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｋｎｏｗｌｅｄｅｅｘｌｏｒａｔｉｏｎｓｔｒａｔｅｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎ

ｇ

；

ｇ

；

ｇｙ

ｐ

ꢀ

ｇ

ｐ

ꢀ

ｙ

， “ ” ，

然而强化学习交互试错的学习机制使其常常面

－

引

言

ꢀ

０

ꢀ

：、、

临状态动作空间的维度灾难探索与利用的矛盾时间

－

［

１－２

］

。，，

信度分配等问题其中状态和动作维度过高使得

Ａｅｎｔ

ｇ

，

来源于心理学中的行为主义作为解决序

强化学习

ꢀꢀ

，

在巨大的状态动作空间下很难或无法遍历所有的情况

－

，

， “ ” ，

贯决策的重要方法它采取持续的交互试错机制通过

－

。

导致算法无法学到合理的策略在学习过程中

，

Ａｅｎｔ

ｇ

一

。

与环境的不断交互学得有效策略强化学习过程反映了人

，

方面需要利用已有的经验选择能够获益最大的动作另一

，

脑如何做出决策的反馈系统运行机理符合人类面向实际问

，，

方面需要扩大搜索范围选择以前没有选择过的动作探索

。，

题时的经验性思维与直觉推理的一般决策过程因而近年

，。

未知的空间以期寻找到更优的动作环境的反馈信号具

，，

来强化学习在人工智能领域得到广泛而深入地应用并成为

，

有延迟性和稀疏性即

在执行多步动作之后才会获

Ａｅｎｔ

ｇ

。

当前突破类人智能的关键性机器学习方法强化学习在视频

［

］

３－８

、

［

］

０

、

［

］

１－１２

、

用

９－１

１

，。

得奖赏中间动作都没有收到反馈信号解决上述问题的

游戏

棋牌类游戏

物理系统的导航与控制

［］

１３

户交互算法等领域的表现已经接近或超过了人类水平

，，

一个比较好的办法是对人类知识的充分利用这也正符合

。

人类在改造世界过程中面对一般性决策问题的思维方式

、

团队将深度学习深度强化学习与

特别是

ＤｅｅＭｉｎｄ

ｐ

、、

知识作为一种包含了经验价值观认知规律以及专家

，

蒙特卡罗树搜索技术深度融合研发出的智能围棋程序

，

（

），

战胜李世乭年

２０１７

，、

见解等要素的结构化组合是一种依赖于语境面向人员的

在

ＡｌｈａＧｏ２０１６

ｐ

年

月

３

ＡｌｈａＧｏＬｅｅ

ｐ

ꢀ

（

）

战胜世界围棋冠军柯洁展现出了

ＡｌｈａＧｏＭａｓｔｅｒ

ｐ

ꢀ

，

更加注重效用的关联信息具有目的性和应用性两大基本

月

５

。

。［］

特征正如文献指出知识比数据和信息更有价值是

１４

，“

强化学习的巨大潜力

：

；

：

；

：

。

收稿日期

修回日期

网络优先出版日期

２０１７－０２－１４

２０１７－０６－０８

２０１７－０６－２９

：：／／

ｈｔｔ

ｐ

／

／／

ｋｎｓ．ｃｎｋｉ．ｎｅｔｋｃｍｓｄｅｔａｉｌ１１．２４２２．ＴＮ．２０１７０６２９．１７３２．００８．ｈｔｍｌ

网络优先出版地址

：

基金项目总装备部预研基金

（

）；

中国博士后科学基金第八批特别项目

（

）；

中国博士后科学基金第

６０

９１４０Ａ０６０２０３１５ＪＢ２５０８１

２０１５Ｔ８１０８１

（

）；

江苏省自然科学基金青年基金面上项目

（）

资助课题

ＢＫ２０１４００７５

批面上项目

２０１６Ｍ６０２９１７４

２６０４

ꢀ

系统工程与电子技术

第

卷

３９

ꢀ



，

因为它更贴近行动知识是行动和决策的依据和指南

。”

（）

１Ｓ

；

表示状态集

ꢀꢀ

、

将人类的领域知识隐性经验和高质量数据应用于强

（）

２Ａ

；

表示动作集

，，，

化学习可以有效提高学习效率降低学习难度成为当前

（）（，）

，

表示状态下采取动作之后转移到

ａ

３Ｐｓ′ｓａ

｜

ｓ

。

研究的一个重要方向本综述以强化学习的基本理论为起

；

状态的概率

ｓ′

，，

点首先介绍了强化学习的基本概念和基础算法然后结合

（）（，）。

表示状态下采取动作获得的奖励

ａ

４Ｒｓａ

ｓ

；

近年来公开文献给出深度强化学习的概念及模型梳理国

，

策略的目标是使未来的累积奖赏最大因而当前状态

，

内外典型的基于知识的深度强化学习方法即专家在线指

（

）（

或状态动作对的好坏可以通过该状态状态动作对

－

）

－

、、、

导回报函数设计启发式探索策略模仿学习这种方法

４

；

。

能够带来的未来累积回报的大小来衡量强化学习引入回

，

最后对基于知识的深度强化学习方法进行了总结与展望

。

：

报函数来表示某个时刻的状态下具备的回报值

ｔ

∞

２

ｋ

…

（）

１

Ｒ

ｔ

ｒ

ｔ１

＋

ｒ

＋γ

ｔ２

＋

ｒ

＋γ

ｔ３

＋

ｒ

ｔ１ｋ

深度强化学习的概念及模型

＝

＋

＝

＋＋

１

ꢀ

∑

ｋ０

＝

，，

由于距离当前状态越远回报值的不确定性越大因而

ꢀꢀ

强化学习基础

１．１

ꢀ

，

一般采用作为折扣系数对未来的回报值乘以一个折扣

强化学习与

模型

１．１．１

ＭＤＰ

ꢀ

。

，，

进而引入值函数的概念用值函数来表示一个状态的

强化学习的学习过程是

与环境进行交互并从环

Ａｅｎｔ

ｇ

，。

价值也就是未来累积回报的期望定义如下

：

。

境中取得反馈信息的学习过程作为一种交互式的学习方

［

］

５

。

１

∞

，

法强化学习的主要特点是试错和延迟回报

熿

燄

ｋ

（）

２

（）

Ｖｓ

ｒ

ｓ

｜

ｔ

＋

ｓ

＝

ｔ１ｋ

＋

Ｅ

＝

∑

ｋ０

＝

，

与环境的交互过程在每个时间步

Ａｅｎｔ

ｇ

图

展示了

１

燀

燅

，

环境根据

ａ

ｔ

长

观察环境得到状态

Ａｅｎｔ

ｇ

然后执行动作

ｓ

ｔ

动作状态价值函数就可表示为

－

ꢀꢀ

。

这样的过程可用马尔可夫决

生成下一时刻的

和

ｒ

ｔ

ａ

ｔ

ｓ

ｔ＋１

∞

熿

燄

（

，

）

来进行描述

ＭａｒｋｏｖｄｅｃｉｓｉｏｎｒｏｃｅｓｓｅｓＭＤＰ

ꢀｐ

。

策过程

ｋ

ꢀ

（）

３

（，）

Ｑｓａ

，

ｓａ

＝＝

ｔ

ｒ

ｔ１ｋ

＋

ｓ

ｔ

ａ

｜

＋

Ｅ

＝

∑

ｋ０

＝

，

分为个部分也可称为四元组

４

〈，，，〉：

ＳＡＰＲ

ＭＤＰ

燀

燅

强化学习基础算法

１．１．２

ꢀ

，：

从环境模型是否已知的角度可以将强化学习分为有

。

模型和无模型的强化学习方法有模型的强化学习方法主

，

要基于动态规划的思想使用

方程和

最优

Ｂｅｌｌｍａｎ

。

方程进行策略迭代和值迭代对于环境未知的强化学习方

，。，

法称之为无模型的强化学习方法在这样的情况下由于

，，

无法对状态进行全概率展开因而无法直接评估策略只能

，

通过与环境的交互采样观察状态的转移和环境返回的奖赏

图

强化学习示意图

１

ꢀ

。

值来进行学习有关方法的分类和关系可以参见图

。

２

Ｆｉ．１Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎ

ｇ ꢀ ꢀ ｇ

图

强化学习基本算法框架

２

ꢀ

Ｆｉ．２Ｆｒａｍｅｗｏｒｋｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎａｌｏｒｉｔｈｍｓ

ꢀ ꢀ ꢀ ｇｇ

ꢀ

ｇ

ꢀ

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于知识的深度强化学习研究综述

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页