第 48 卷 第 4 期
2019年7月
电 子 科 技 大 学 学 报
Vol.48 No.4
Jul. 2019
Journal of University of Electronic Science and Technology of China
·计算机工程与应用·
基于强化学习的旋翼无人机智能追踪方法
史豪斌*,徐 梦
(西北工业大学计算机学院 西安 710129)
【摘要】针对旋翼无人机追踪场景中常用的PID控制方法与视觉伺服控制方法的不足,该文尝试将视觉伺服控制与强化学
习结合,提出了一种基于强化学习的旋翼无人机智能追踪方法。首先使用基于图像的视觉伺服实现旋翼无人机的闭环控制,
然后建立使用Sarsa学习算法调节伺服增益的强化学习模型,通过训练可以使得旋翼无人机自主选择视觉伺服增益。该文设计
PID
了旋翼无人机在实物场景与仿真场景下的运动目标追踪实验,实验结果论证了该方法相对于
控制与基于图像的视觉伺服控
制方法具有更好的追踪效果。
关
键
词
智能追踪; 强化学习; 旋翼无人机; 视觉伺服
中图分类号 TP39 文献标志码 doi:10.3969/j.issn.1001-0548.2019.04.012
A
An Intelligent Tracking Method of Rotor UAV Based
on Reinforcement Learning
SHI Hao-bin* and XU Meng
(School of Computer Science, Northwestern Polytechnical University Xi’an 710129)
Abstract Aiming at the deficiencies of PID control method and visual servo control method commonly used
in the tracking scene of Rotor UAV(unmanned aerial vehicle), this paper attempts to combine visual servo control
with reinforcement learning, and proposes an intelligent tracking method for Rotor UAV based on reinforcement
learning. Firstly, image-based visual servo is used to track the closed-loop control of the Rotor UAV, and then a
reinforcement learning model is established to adjust the servo gain with Sarsa learning algorithm. After many
training sessions, the Rotor UAV can choose its own visual servo gain. In this paper, the experiment of tracking the
moving target of Rotor UAV in physical and simulation scenarios is designed. The experimental results demonstrate
that the proposed method has better tracking effect than PID control and classical image-based visual servo control
method.
Key words intelligent tracking; reinforcement learning; rotorcraft UAV; visual servo
近年来,随着旋翼无人机相关技术的发展,广
大学者对旋翼无人机的追踪与控制问题进行了广泛
的研究[1-2]。文献[3]针对旋翼无人机追踪地面目标车
辆过程中存在的精度不高以及参数固定的问题进行
研究,提出了一种模糊PID控制方法,但是PID控制
器在处理非线性不确定系统时的抗干扰能力差,控
制精度也不高。文献[4]应用了一种基于位置的视觉
伺服(position-based visual servoing, PBVS)的控制方
法实现旋翼无人机的追踪控制, 但是基于位置的视
觉伺服的误差定义在三维笛卡尔空间,对初始条件、
噪声、摄像机参数误差和目标位姿的估计精度都非
常敏感。文献[5]提出了一种新型的基于图像的视觉
伺服旋翼无人机最优路径规划方法,提高了旋翼无
人机的控制效果。但是基于图像的视觉伺服控制对
于伺服增益的选取大多通过人工赋值的方式,选取
合适的伺服增益值往往依靠经验, 因此该方法不能
很好地在复杂的非线性环境中实现精确的控制。
针对经典的PID控制与基于图像的视觉伺服控
制在旋翼无人机追踪与控制过程中存在的收敛性
差、控制精度不高等问题,本文设计了一种基于强
化学习的旋翼无人机追踪控制方法,通过基于图像
的视觉伺服形成旋翼无人机的闭环反馈控制,结合
强化学习调节伺服增益值,可以实现旋翼无人机智能
系统对于环境的适应能力。
1
旋翼无人机视觉伺服模型
1.1 基于图像的视觉伺服
旋翼无人机的视觉传感器中的
M 个特征点的
收稿日期:2018 10 24;修回日期:2018 12 24
基金项目:陕西省重点研发计划(2018GY-187)
作者简介:史豪斌 (1978 ),副教授,主要从事人工智能方面的研究. E-mail:
全部评论(0)