推荐星级:
- 1
- 2
- 3
- 4
- 5
基于深度学习和智能规划的行为识别
资料介绍
现有行为识别方法在未能持续覆盖造成视频监控盲区所引起行为数据缺失的情况,难以有效实施特征分析、行为分类补全,无法准确识别出智能体完整的行为动作序列.为此,本文提出一种基于深度学习和智能规划的行为识别方法.首先,利用深度残差网络对图像进行分类训练,然后使用递归神经网络对图像特征进行提取深度信息以增强分类效果;其次,运用智能规划的STRIPS(Stanford Research Institute Problem Solver)模型,将深度学习提取的图像特征命题信息转化为规划领域的模型描述文档,并使用前向状态空间搜索规划器推导出完整的行为动作序列.在HMDB51等行为识别公共数据集中,本方法与生成式对抗网络、深度卷积逆向图网络、深度信念网络、支持向量机等同类先进方法相比展现出更好的性能.
部分文件列表
文件名 | 大小 |
基于深度学习和智能规划的行为识别.pdf | 2M |
部分页面预览
(完整内容请下载后查看)8
Vol. 47 No. 8
Aug. 2019
第
期
电
子
学
报
2019
8
ACTA ELECTRONICA SINICA
年
月
基于深度学习和智能规划的行为识别
1
1
1
2
1
, , , ,
郑兴华 孙喜庆 吕嘉欣 鲜征征 李 磊
( 1.
,
中山大学数据科学与计算机学院 广东广州
510006; 2.
,
广东金融学院互联网金融与信息工程学院 广东广州
510521)
:
,
现有行为识别方法在未能持续覆盖造成视频监控盲区所引起行为数据缺失的情况 难以有效实施特征
摘
要
、 , . ,
分析 行为分类补全 无法准确识别出智能体完整的行为动作序列 为此 本文提出一种基于深度学习和智能规划的行
. , ,
为识别方法 首先 利用深度残差网络对图像进行分类训练 然后使用递归神经网络对图像特征进行提取深度信息以
;
,
STRIPS( Stanford Research Institute Problem Solver)
,
模型 将深度学习提取的图像
增强分类效果 其次 运用智能规划的
特征命题信息转化为规划领域的模型描述文档 并使用前向状态空间搜索规划器推导出完整的行为动作序列 在
HMDB51
,
.
,
、
、
、
等行为识别公共数据集中 本方法与生成式对抗网络 深度卷积逆向图网络 深度信念网络 支持向量机等同
.
类先进方法相比展现出更好的性能
:
;
;
;
;
;
STRIPS ;
规划模型 前向状态空
关键词
间搜索规划器
中图分类号
URL: http: / /www. ejournal. org. cn
行为识别 深度学习 智能规划 深度残差网络 递归神经网络
:
TP302
:
A
: 0372-2112 ( 2019) 08-1661-08
DOI: 10. 3969 /j. issn. 0372-2112. 2019. 08. 008
文献标识码
文章编号
电子学报
Action Recognition Based on Deep Learning and
Artificial Intelligence Planning
1
1
1
2
1
ZHENG Xing-hua ,SUN Xi-qing ,LU Jia-xin ,XIAN Zheng-zheng ,LI Lei
( 1. School of Data and Computer Science,Sun Yat-sen University,Guangzhou,Guangdong 510006,China;
2. School of Internet Finance and Information Engineering,Guangdong University of Finance,Guangzhou,Guangdong 510521,China)
Abstract: Currently,action recognition methods can hardly carry out feature analysis,behavior classification,and ac-
tion completion,and are incapable of accurately identifying the complete behavioral action sequence of intelligent agent for
the discontinuous and incomplete motion capture,behavioral data missing or even broken in the time dimension,which are
resulted from sensor device not being continuous coverage caused by the monitoring blind area. In this regard,we put for-
ward a method of action recognition based on deep learning and artificial intelligence planning. Firstly,a deep learning net-
work is constructed,by which the image is classified and trained using DRN( Deep Residual Network) . After that,the ex-
traction depth information of image frame feature for recurrent neural network is trained to enhance the classification effect.
Secondly,the STRIPS( Stanford Research Institute Problem Solver) planning model is used to extract the image feature of
deep learning,transforming into the description document for domain model,which facilitates deriving the optimal planning
solution by means of forward state-space search planner. In the experiment,we exhibit that our method outperforms baselines
in the public datasets,e. g. ,DCIGN( Deep Convolutional Inverse Graphics Networks) ,GAN( Generative Adversarial Net-
works) ,DBN( Deep Belief Networks) ,and SVM( Support Vector Machine) .
Key words: action recognition; deep learning; artificial intelligence planning; deep residual network; recurrent neural
network; STRIPS planning model; forward state-space search planner
,
智能体的行为动作或者行为效果出发 准确完整识别
1
引言
.
出智能体的行为动作序列或其行为目标的过程 当前
,
( action recognition)
、
是指从观察 捕捉到
行为识别
大多数的行为识别方法采取计算机视觉的技术对视
: 2018-05-18;
: 2019-01-02;
:
责任编辑 蓝红杰
收稿日期
修回日期
:
基金项目 广东省自然科学基金
( No. 2017A030313391) ;
( No. 2017A050501042)
广东省科技厅国际合作项目
1662
2019
年
电
子
学
报
、 ,
频 图像等多媒体数据进行分析处理 从中识别出智能
: B A, ,
动作是 从房 走到 从抽屉中取咖啡 把咖啡放进咖
,
体的行为动作 并按相应的环境信息对行为动作的目
, A B, .
啡机中煮熟 再从房 走回 把咖啡放在桌上 这种行
[1,2]
、
的 过程及效果进行语义描述
.
、
为识别方法是可靠 有效的
.
随着大数据的蓬勃
, 、 、
发展 行为识别已成为机器学习 人机交互 模式识别及
[3,4]
.
数据挖掘等领域的研究热点
行为识别方法主要分为提取特征和动作识别及理
. , (
解两个阶段 现实中 其总会面对空间复杂性 智能体
) ( )
动作不连续 及时间差异性 时间维度上数据缺失 等
. , 、
问题 如 面对传感器 摄像头等设备未能无缝或持续覆
,
盖而造成的监控盲区 所引起的捕捉智能体动作不连
、 ,
续不完整 时间维度上行为数据缺失 从而无法准确识
[5]
:
在行为识别中常用的深度学习方法有四种
一
; ,
别出智能体完整的行为动作序列和目标过程 再如 卷
( Convolution Neural Network,
是有监督卷积 神经 网络
CNN) : 3D
,
积神经网络算法受自身结构及计算复杂度约束 并不
、
核对视频图像实施多次卷积 批量
使用时空
,
适合处理行为识别的时间序列问题 而利用递归神经
[19,20]
;
归一以及下采样等操作以获取全局特征表达
二
, ,
网络 则计算量不足较难实现大规模的运算 均会导致
: “
是基于自编码的深度神经网络 采用 让输出等于输
,
行为动作识别准确度降低 等等
.
” ,
入 思想的无监督学习方法 当隐藏层多于输入时得到
( deep learning)
深度学习
是一种基于对海量数据实
[2]
[5]
,
稀疏编码 当隐藏层小于输入时降维
;
三是基于受限
,
施表征学习的机器学习方法
其通过重构含有多层
:
玻尔兹曼机的深度置信网络 由隐藏的输出神经元和
,
隐藏层的机器学习模型以及学习大量的训练样本 获
[21,22]
[6]
.
可见的输入神经元构成的概率生成模型
四是递
通过将状
态在自身网络中循环传递的方式接受时间序列结构输
.
Hinton
自
取更具价值的特征来进行精准分类或预测
[7]
( Recurrent Neural Network,RNN) :
归神经网络
,
等人提出系统概念后
迅速成为行为识别领域前沿
( artificial intelligence planning)
指在
[8,9]
.
焦点
智能规划
, 、
入 从而解决随递归而引起的权重爆炸 消失以及无法
,
实施某项行动或完成某件事情之前 对解决问题以及
[23,24]
.
捕捉长期时间关联等问题
,
所选用的处理方式进行预判分析 并制订对应的步骤
,
计划在行动前设计好操作步骤 是一种问题求解的科
3
基于深度学习和智能规划的行为识别方法
, 、
学方法 目的就是运用人工智能领域的理论 知识和技
本文提出一种基于深度学习和智能规划的行为识
, ,
术 半自定或自动地生成一系列动作序列 以此实现期
( Action Recognition Based on Deep Learning and
别方法
[10,11]
.
,
STRIPS( Stanford Re-
望或计划的目标
当前 使用
规划模型来解释动作模
在以命题逻辑推导智能体动作过
Artificial Intelligence Planning,ARDLAP) ,
旨在利用深度
search Institute Problem Solver)
,
残差网对图像进行分类训练 再使用递归神经网络对
[12]
,
型间的逻辑关系
,
图像特征提取深度信息以增强分类效 果 然后 运用
[13]
.
,
因此 本文选择深度学习的特征提
程方面极具优势
STRIPS
,
模型 将深度学习提取的图像特征命题信息转
[12,14]
STRIPS
取与智能规划的
模型
相结合的方法来解
,
化为规划领域的模型描述文档 最后通过前向状态空
.
决行为识别问题
.
间搜索规划器推导出完整的行为动作序列
3. 1
算法框架
2
相关工作
[15]
ARDLAP
: ,
算法框架分两部分 一是深度学习 目的
,
目前 研究行为识别问题较成熟的有三类方法
:
[16]
[17]
[18]
; ,
是提取图像的特征强化分类 二是智能规划 目的是识
、
、
逻辑推理方法
.
概率推理方法
模板匹配方法
, 1
别智能体的完整行为动作序列 具体如算法 所示
:
,
但随着行为识别研究的持续深入 场景日益复杂多变
,
、
不断出现因传感器 摄像头未能无缝或持续覆盖而造
1
算法
基于深度学习和智能规划的行为识别方法
,
成监控盲区的情况 上述方法就无法对待识别智能体
[1]
.
, B
以下场景为例 房
活动做出准确完整的行为识别
:
输入 初始状态的图像和目标状态的图像
带有标签的训练集和测试集
, A , T1 T2
设两个摄像头 房 未设摄像头 在 和
时刻摄像
、
对象类型文件 状态谓词文件
1( a) ( b) ,
和 所示 即行为人移至电
捕捉到的图像为图
、
动作描述文件 状态命题文件
, ,
视机前 其右下角桌上增加了一杯咖啡 但上述方法无
:
输出 从初始状态至目标状态间的行为动作序列
T1 T2
至
.
间人的行为动作 这里运用逻辑推
法识别出
:
步骤
1:
, T1
理的知识 从
T2
和
捕捉的状态变化推理出人行为
( 、
设置深度学习网络的参数 迭代次数 网络层数
)
全部评论(0)