推荐星级：

基于改进3D卷积神经网络的行为识别

更新时间：2019-12-31 15:07:49 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：3D卷积神经网络行为识别 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

鉴于基于视频的人体行为识别中的视频流数据过于庞大,3D卷积核参数设置过多,存在训练时间较长,调参困难等问题,以3D卷积神经网络为基础,提出一种将3D卷积核拆分成空间域和时间域两种卷积核的神经网络结构。两种卷积核分别形成两个数据流进行交互,同时引入残差网络以优化网络结构,减少参数设置。将所提方法应用于两个行为识别数据集KTH和UCF101上进行训练验证,其行为识别准确率分别为96.2%和90.7%。结果表明,较改进前的神经网络框架,所提方法在保证动作识别准确度的前提下,训练速度提高了7.5%～7.8%。该方法可以有效降低深度学习进行行为识别的硬件要求,提高模型训练效率,并可以广泛应用于智能机器人领域。

部分文件列表

文件名	大小
基于改进3D卷积神经网络的行为识别.pdf	2M

立即下载

部分页面预览

（完整内容请下载后查看）

计算机集成制造系统

第

卷第

期

８

２５

Ｖｏｌ．２５Ｎｏ．８

Ａｕ．２０１９

ｇ

ꢀꢀꢀ

年

月

２０１９

ꢀꢀꢀ

８

ＣｏｍｕｔｅｒＩｎｔｅｒａｔｅｄＭａｎｕｆａｃｔｕｒｉｎＳｓｔｅｍｓ

ꢀ ꢀ

ｐｇｇｙ

ꢀ

：

／

ＤＯＩ１０．１３１９６．ｃｉｍｓ．２０１９．０８．０１４

ｊ

基于改进

卷积神经网络的行为识别

３Ｄ

，，，

张小俊李辰政孙凌宇张明路

（，

河北工业大学机械工程学院天津

）

３００１３０

ꢀ

：

要鉴于基于视频的人体行为识别中的视频流数据过于庞大

，

３Ｄ

，

卷积核参数设置过多存在训练时间较

摘

ꢀ

，，

长调参困难等问题以

，

卷积神经网络为基础提出一种将

３Ｄ

卷积核拆分成空间域和时间域两种卷积核的神经

３Ｄ

。，，。

网络结构两种卷积核分别形成两个数据流进行交互同时引入残差网络以优化网络结构减少参数设置将所

，

上进行训练验证其行为识别准确率分别为和

９６．２％

提方法应用于两个行为识别数据集

和

ＫＴＨ

ＵＣＦ１０１

。

，，，

结果表明较改进前的神经网络框架所提方法在保证动作识别准确度的前提下训练速度提高了

９０．７％

７．５％

。

，，

该方法可以有效降低深度学习进行行为识别的硬件要求提高模型训练效率并可以广泛应用于智能机

７．８％

～

。

器人领域

：

关键词行为识别

；

３Ｄ

；；；

卷积神经网络残差网络双数据流深度学习理论

：

Ａ

中图分类号

文献标识码

ＴＰ２４２．６

ꢀꢀꢀ

Ｂｅｈａｖｉｏｒｒｅｃｏｎｉｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍｒｏｖｅｄ３Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

ｇ

ｐ

，

ＺＨＡＮＧＸｉａｏｕｎＬＩＣｈｅｎｚｈｅｎＳＵＮＬｉｎｕＺＨＡＮＧＭｉｎｌｕ

ｇｙ

ｊ

ꢀ

ｇ

ꢀ

ｇ

（

，

）

ＳｃｈｏｏｌｏｆＭｅｃｈａｎｉｃａｌＥｎｉｎｅｅｒｉｎＨｅｂｅｉＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏＴｉａｎｉｎ３００１３０Ｃｈｉｎａ

ꢀ ꢀ ꢀ ｇ

ｇｙｊ ꢀ

ｇ

ꢀ

ｙ

ꢀ

：

ＡｂｓｔｒａｃｔＩｎｖｉｅｗｏｆｔｈｅｒｏｂｌｅｍｓｏｆｔｏｏｌａｒｅｖｉｄｅｏｓｔｒｅａｍｄａｔａａｎｄｔｏｏｍａｎｓｅｔｔｉｎ３Ｄｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌａｒａｍｅ

ꢀ ꢀ ꢀｐ ꢀ ꢀ ꢀ ｇꢀ ꢀｐ－

ꢀ

ｙ

ꢀ

ｇ

ꢀ

，

ｔｅｒｓｉｎｈｕｍａｎｂｅｈａｖｉｏｒｂａｓｅｄｏｎｖｉｄｅｏｗｈｉｃｈｌｅｄｔｏｌｏｎｔｒａｉｎｉｎｔｉｍｅａｎｄｄｉｆｆｉｃｕｌｔｉｎｔｕｎｉｎｔｈｅａｒａｍｅｔｅｒｓａ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀｐ

ꢀ

ｇ

ꢀ

ｇ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

ｍｅｔｈｏｄｔｏｄｉｖｉｄｅ３Ｄｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌｉｎｔｏｔｗｏｋｉｎｄｓｏｆｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌｓｔｈａｔｗｅｒｅｓａｃｅｄｏｍａｉｎａｎｄｔｉｍｅｄｏ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀｐ ꢀ ꢀ －

ꢀ

ｍａｉｎｗａｓｒｏｏｓｅｄｂａｓｅｄｏｎ３Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ．Ｔｗｏｄａｔａｓｔｒｅａｍｓｆｏｒｍｅｄｂｔｗｏｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌｓ

ꢀｐｐ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀｙ ꢀ

ꢀ

，

ｗｅｒｅｉｎｔｅｒａｃｔｗｉｔｈｅａｃｈｏｔｈｅｒｔｈｕｓｔｈｅｎｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅａｎｄｒｅｄｕｃｉｎａｒａｍｅｔｅｒｓｅｔｔｉｎｓｗｅｒｅｏｔｉｍｉｚａｔｅｄ．Ｔｈｅ

ｇｐｇꢀ ꢀｐ

ꢀ

ｔｒａｉｎｉｎｖｅｒｉｆｉｃａｔｉｏｎｗａｓｅｒｆｏｒｍｅｄｏｎｔｗｏｂｅｈａｖｉｏｒａｌｉｄｅｎｔｉｆｉｃａｔｉｏｎｄａｔａｓｅｔｓｎａｍｅｄＫＴＨａｎｄＵＣＦ１０１ａｎｄｔｈｅａｃｃｕ

ꢀｐ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ －

ｇ

ꢀ

ｒａｃｒａｔｅｏｆｒｅｃｏｎｉｔｉｏｎｂｅｈａｖｉｏｒｗａｓ９６．２％ａｎｄ９０．７％ｒｅｓｅｃｔｉｖｅｌ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｅｒｏｏｓｅｄｍｅｔｈｏｄ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀｐｐ

ｙ

ꢀ

ｇ

ꢀ

ｐ

ｙ

ꢀ

，

ｃｏｕｌｄｓｅｅｄｕｔｈｅｔｒａｉｎｉｎｒｏｒｅｓｓｂ７．５％７．８％ａｎｄｅｎｓｕｒｅｔｈｅｔｒａｉｎｉｎａｃｃｕｒａｃａｔｔｈｅｓａｍｅｔｉｍｅ．Ｔｈｅｒｅｆｏｒｅ

ｇｐｇ ꢀｙｙ ꢀ

ꢀｐ ꢀｐ ꢀ ꢀ ꢀ ꢀ ꢀ

ꢀ

～

ｇ

ꢀ

ｔｈｉｓｍｅｔｈｏｄｃｏｕｌｄｅｆｆｅｃｔｉｖｅｌｒｅｄｕｃｅｔｈｅｈａｒｄｗａｒｅｒｅｕｉｒｅｍｅｎｔｓｆｏｒｄｅｅｌｅａｒｎｉｎｉｎｂｅｈａｖｉｏｒｒｅｃｏｎｉｔｉｏｎａｎｄｉｍｒｏｖｅ

ｇ

ꢀ

ｙ

ꢀ

ꢀ ｑ

ꢀ

ｐ

ꢀ

ｇ

ꢀ

ꢀ ｐ

，

ｔｈｅｅｆｆｉｃｉｅｎｃｏｆｍｏｄｅｌｔｒａｉｎｉｎｗｈｉｃｈｃｏｕｌｄｂｅｗｉｄｅｌｕｓｅｄｉｎｔｈｅｆｉｅｌｄｏｆｉｎｔｅｌｌｉｅｎｔｒｏｂｏｔｓ．

ꢀ ꢀ ꢀ ꢀ ꢀꢀ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

：

；

Ｋｅｗｏｒｄｓｂｅｈａｖｉｏｒｒｅｃｏｎｉｔｉｏｎ３Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｒｅｓｉｄｕａｌｎｅｔｗｏｒｋｄｕａｌｆｌｏｗｄａｔａｄｅｅ

ｐ

；

ꢀ

ｇ

ꢀ

ｙ

ｌｅａｒｎｉｎｔｈｅｏｒ

ｇ

ꢀ

ｙ

，。

别领域使人体行为识别准确率迅速提高深度学习

引言

０

ꢀ

，

是一种对数据进行表征学习的方法它通过组合低层

特征形成更加抽象的高层特征或属性来实现人体行

传统的基于视频的人体行为识别方法采用的是

［

］

１３

，

［

］

４５

－

，

为运动特征提取的自动化其中卷积神经网络

人工提取运动特征

近些年来随着深度学习理论

，

在图像识别领域的兴起该理论被应用于人体行为识

（

，

）

在图像特征提

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋＣＮＮ

ꢀ

：

；

修订日期

２０１８０７１９

：

。；

２０１９０３２１Ｒｅｃｅｉｖｅｄ１９Ｊｕｌ２０１８ａｃｃｅｔｅｄ２１Ｍａｒ．２０１９．

ꢀ

收稿日期

－

ｙ

ꢀ

ｐ ꢀ

：

基金项目国家重点研发计划资助项目

（

）。：，

２０１７ＹＦＣ０８０６５０３ＦｏｕｎｄａｔｉｏｎｉｔｅｍＰｒｏｅｃｔｓｕｏｒｔｅｄｂｔｈｅＮａｔｉｏｎａｌＫｅＲ＆ＤＰｒｏｒａｍＣｈｉｎａ

ꢀ

ｊ

ꢀ ｐｐ

ꢀｙ

ꢀ ｙ

ꢀ ｇ

ꢀ

（）

Ｎｏ．２０１７ＹＦＣ０８０６５０３．

：

张小俊等基于改进

２００１

第

期

卷积神经网络的行为识别

３Ｄ

８

Ｐ

－

ｉ

１Ｑ１Ｒ１

－－

ｉ

。，

取上表现优异然而基于

的特征提取都是针

ＣＮＮ

（

ｘ

＋

ｐ

）（）（）

ｚｒ

＋

ｘｚ

ｙ

ｒ

ｐｑ

＋

ｙｑ

（

＋

ｉ

ｊ

）。

ｖ

ｔａｎｈｂ

Ｗ_ｉｍｖ_{ｉ１ｍ}

（）

－

ｊ

＝

ｉ

ｊ

，

对单张图片进行二维图像的卷积操作而人体行为多

∑∑∑∑

ｍ

０

０ｒ０

＝＝

ｑ

＝

ｐ

，

为一系列连贯动作即每相邻视频帧都有动作关联

，

（）

２

ｘｚ

ｙ

：

ｖ

ｉ

ｊ

，

卷积操作忽略了视频流信息因此在行为

单一的

２Ｄ

（，，）

位

ｘｚ

式中

表示第层第个特征映射中

ｉ

ｊ

ｙ

［］

６

。

识别领域难以达到较高的准确率

等

提出

卷

３Ｄ

Ｊｉ

；

ｔａｎｈ

（）；

为激活函数为该特征映

ｂ

置处的卷积结果

ｉ

ｊ

ｒ

ｐｑ

，

积特征提取的神经网络系统将

，

扩展到三维所

ＣＮＮ

；

ｍ

（）

ｉ－１

；

层中特征映射的索引

Ｗ_ｉｍ

射的偏差

为第

ｊ

（

）

可以同时提取时

构建的

卷积神经网络

３Ｄ

３ＤＣＮＮ

（，，）

处的值

ｒ

ｐｑ

；，，

ＰＱＲ

ｉ

为第个特征映射位置

ｋ

ｉ

间域和空间域特征来捕获多个相邻帧间编码的运动

、

为卷积核的宽度高度和深度

。

，

信息最后通过在

和

ＴＲＥＣＶＩＤＫＴＨ

数据集上进行

（）

和式

１

（），

可以看出

２３Ｄ

对比式

卷积增加了时

［］

７

；

Ｚｈｕ

评估说明该方法效果良好

等

认为一个视频动

，

因此

Ｒ

ｉ

，，

，

卷积核为个维度其

ｔｈｗ３

间维度核

３Ｄ

，

作序列可以通过输入几个关键帧来预测动作分类其

，

ｈ

。

图

中

ｔ

为时间维度

和

为高和宽的空间维度

ｗ

１

，

余帧均为冗余帧同时提出用于动作识别的关键帧挖

，

３Ｄ

所示共个连续动作帧

５

卷积核对相邻帧图像

３

，

掘模型在

数据集上进行测试后人体行为识

ＵＣＦ１０１

，

进行卷积滤波步长为则卷积操作提取出个具

３

，

１

［］

８

；

９３．１％Ｑｉｎ

别的准确率达到

等

提出一种融合不同

。

有时间信息的特征图

类型的经典描述符和多通道

的特征融合方

３ＤＣＮＮ

法用于人体行为识别其在数据集上的识别

，

ＫＴＨ

。

准确率达到

９５．１％

，

相比于

模型

模型卷积核参

２ＤＣＮＮ

３ＤＣＮＮ

，，

数增加了一个维度导致模型参数成倍增加从而增

。，

加了训练的时间和难度针对上述问题本文将

３Ｄ

，；

卷积核拆分为两个卷积核以减少参数设置将输入

，

数据分流形成空间卷积数据流和时间卷积数据流

，

；

并在两数据流间进行信息交互在卷积操作过程引

（），

思想来减少网络训练难度提

Ｒｅｓｎｅｔ

入残差网络

。

结构框架设计

高网络训练效率

２

ꢀ

卷积神经网络

卷积核拆分

１３Ｄ

ꢀ

２．１３Ｄ

ꢀ

，

卷积核有个维度信息导致神经网络参数

３Ｄ

，

卷积核增加运行速度变慢训练时间增长

３

是在猫的视觉皮层生物电信号启发下提

ＣＮＮ

，

较

２Ｄ

，

出的如今已广泛应用于图像特征提取

。

ＣＮＮ

具有

：

例如设

，

卷积

３×３＝９３Ｄ

卷积核参数的个数为

２Ｄ

、、，

权值共享稀疏连接可生成多特征图同时对于形

，

神经网络参数为之

３×３×３＝２７

核参数的个数为

、、。

变几何变换光照有一定程度的鲁棒性等优点传

［］

９

。

前的

倍

在

等

提出的

模

Ｉｎｃｅｔｉｏｎｖ３

－

３

Ｓｚｅｅｄ

ｇｙ

ｐ

统

卷积过程表示为

２Ｄ

，

型中将空间上的

卷积核分解为

和

３×１１×３

Ｐ

－

ｉ

１Ｑ１

－

ｉ

３×３

（

）（

）

＋

ｙｑ

ｘ

ｙ

ｘ

＋

ｐ

ｐｑ

。（）

１

）

ｖ

ｉ

ｊ

ｔａｎｈｂ

＋

ｉ

ｊ

Ｗ_ｉｍｖ_{ｉ１ｍ}

（）

－

ｊ

＝

ꢀ

（

，

两种卷积核可使计算量减少

，

并使在融合多

３３％

∑∑∑

ｍ

０

＝

ｑ

＝

ｐ

ｘ

ｙ

：

ｉ

ｊ

。

模型后的错误率降低到

１７．３％

（，）

为第层第个特征映射中位置处

ｉｘ

ｊ

式中

ｖ

ｙ

，

受其启发本文将

卷积核拆分为如图

所

２

３Ｄ

；

ｔａｎｈ

（）；

为激活函数为该特征映射的

ｂ

的卷积结果

ｉ

ｊ

ｐｑ

，

示的两种卷积核分别从空间域和时间域进行卷积

；

ｍ

（

ｉ－１

）

；

层中特征映射的索引

Ｗ_ｉｍ

偏差

为第

ｊ

。

后融合相加图中

：

ｈ

，

为卷积核的高与宽为

ｔ

和

ｗ

（，）

处的值

ｐｑ

；，

为卷积核的

ＰＱ

个特征映射位置

ｋ

ｉ

。

卷积核的时间维度将大小为的卷积

ｔ×ｈ×ｗ３Ｄ

。

宽度和高度

核拆分为

和

１×ｈ×ｗｔ×１×１

两种尺寸的卷积核

，

卷积适用于空间维度的特征计算无

传统

２Ｄ

，

对视频流进行卷积操作其中

卷积核对每

，

法处理视频数据中连续帧的动作信息而

１×ｈ×ｗ

３ＤＣＮＮ

，

卷积核

ｔ×１×１

一视频帧进行二维图像特征提取

，

加入了相邻帧时间维度信息的卷积操作能实现连

，

对多视频帧进行深度卷积提取帧间信息从而捕捉

：

续帧动作的处理

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于改进3D卷积神经网络的行为识别

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页