推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于知识的深度强化学习研究综述

更新时间:2019-12-25 14:38:34 大小:2M 上传用户:zhiyao6查看TA发布的资源 标签:机器学习 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

作为解决序贯决策的机器学习方法,强化学习采取持续的“交互-试错”机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。


部分文件列表

文件名 大小
基于知识的深度强化学习研究综述.pdf 2M

部分页面预览

(完整内容请下载后查看)
系统工程与电子技术  
39  
11  
1  
2017 11  
eein anectrcs  
g  
y g  
017  
  
( )  
10001601  
网址  
wwm  
文章编号  
基于研究综述  
1 1 1 1 1  
晨溪 曹 亮 陈段理文  
( ,  
解放军理工大学指挥信息系学院 江苏 南京  
1.  
210007  
江大学机械工程学院 州  
2.  
310027  
, “ ” , (  
序贯体  
nt  
ꢀꢀ  
, , 。  
了  
、 、 ,  
家见息 应用于以有效高  
降  
nt  
。 , ,  
理论为强化强化成  
理  
; ; ;  
关键词 强化习  
文献标志码  
969 ss00010  
ꢀꢀꢀꢀ  
中图分类号  
8  
ꢀꢀꢀ  
owaseee rinforcarnin evw  
-  
, , ,  
CHEN an HOU huan UAn  
ꢀ ꢀ ꢀ  
enANG n  
ꢀ ꢀ  
ꢀ ꢀ  
tut ioiver encchnolo  
gy  
10007 ina  
j g  
y f  
ꢀ ꢀ  
, , ,  
o Mchancaneerin iver n zho10027 ina  
ract rtolvenion roblms inforcearnin ada  
ꢀꢀ ꢀ ꢀ ꢀ ꢀ p  
ꢀ  
chanf trror tnteracnt irdeearhe c oas.Kw  
ꢀ ꢀ p y ꢀ ꢀ -  
turenfo ontinntence values civules  
ꢀꢀ ꢀ ꢀ ꢀ p  
annins cafecivl use rovearnin eenc oinforcearnin s  
ꢀ ꢀ ꢀ ꢀ p  
keheor oinforcearnin atarin oint cal szehe  
pp gp  
ꢀꢀ ꢀy  
dee rinforcearnin aaseinforcearnin .  
ꢀ ꢀ ꢀ ꢀ  
rds ee rinforcearnin oratrate versinforcearnin  
gy  
, “ ” ,  
然而 使常常面  
: 、 、  
间  
1-2  
。 , ,  
 使得  
nt  
学中的行为序  
习  
ꢀꢀ  
下 很况  
, “ ” ,  
的重要方法 过  
中  
nt  
人  
一  
系统问  
, ,  
索  
。 ,  
题时的经验性年  
, 。  
具  
, ,  
在人工得到广泛深入应用 为  
性 即  
获  
nt  
能的方法 视频  
3-8  
1-2  
9-1  
, 。  
的  
游戏  
棋牌戏  
系统的导航与制  
[ ]  
13  
算法 类水平  
, ,  
一个也正合  
式  
团队与  
是  
d  
、 、  
经验 家  
卡 罗 技 术 深 序  
) ,  
年  
2017  
, 、  
的  
Go 2016  
e  
胜 世 棋 冠 出 了  
ster  
应用本  
。 [ ]  
文献 指出 是  
14  
,“  
力  
收稿日期  
修回日期  
网络优先出版日期  
2014  
2018  
2019  
/  
t  
/ /  
kn2422 T N 0170629 1732 008 html  
网络优先出版地址  
基金项目 基金  
);  
学基金第目  
);  
学基金第  
60  
9140 6020315JB25081  
2011081  
);  
学基金基金目  
( )  
资助课题  
0140075  
目  
2016 M 6029174  
·
2604  
·
系统工程与电子技术  
39  
  
南  
。”  
()  
S  
表示集  
ꢀꢀ  
经验强  
()  
A  
表示集  
, , ,  
前  
() ( ,)  
表示到  
′sa  
起  
率  
′  
, ,  
后结合  
()  。  
表示取动获得励  
a  
献给出国  
使态  
典型法 即线指  
) (  
对 的坏可以通过对  
、 、 、  
设计 仿法  
回  
最后 望  
示某个回报值  
()  
1  
γ  
2  
γ  
3  
γ
k  
概念模型  
+ +  
 
, ,  
而  
ꢀꢀ  
础  
1  
用 作为个折扣  
γ
强化与  
模型  
1  
P  
γ
, ,  
示一个的  
是  
环  
nt  
, 。  
下  
方  
报  
()  
π
()  
V s  
γ
k  
0  
步  
nt  
了  
据  
态  
nt  
然后作  
为  
ꢀꢀ  
决  
的  
1  
来 进 行 述  
rkon rocesses P  
p  
程  
()  
π
)  
Q sa  
sa  
= =  
γ
k  
0  
元组  
〈 , , , :  
S A P R  
P  
强化法  
2  
, :  
从环以将为 有  
主  
要基使用  
和  
最优  
n  
n  
进行方  
, 。 ,  
为无况下 于  
, ,  
进行能  
通过赏  
图  
来进行学关方法可以图  
Fi  nforcearnin  
ꢀ ꢀ g  
架  
Fi  Frmewinforcearnin ams  
ꢀ ꢀ g g  

全部评论(0)

暂无评论