推荐星级:
- 1
- 2
- 3
- 4
- 5
基于改进3D卷积神经网络的行为识别
资料介绍
鉴于基于视频的人体行为识别中的视频流数据过于庞大,3D卷积核参数设置过多,存在训练时间较长,调参困难等问题,以3D卷积神经网络为基础,提出一种将3D卷积核拆分成空间域和时间域两种卷积核的神经网络结构。两种卷积核分别形成两个数据流进行交互,同时引入残差网络以优化网络结构,减少参数设置。将所提方法 应用于两个行为识别数据集KTH和UCF101上进行训练验证,其行为识别准确率分别为96.2%和90.7%。结果表明,较改进前的神经网络框架,所提方法在保证动作识别准确度的前提下,训练速度提高了7.5%~7.8%。该方法可以有效降低深度学习进行行为识别的硬件要求,提高模型训练效率,并可以广泛应用于智能机器人领域。
部分文件列表
文件名 | 大小 |
基于改进3D卷积神经网络的行为识别.pdf | 2M |
部分页面预览
(完整内容请下载后查看)计算机集成制造系统
第
卷第
期
8
25
Vol.25No.8
Au .2019
g
ꢀꢀꢀ
年
月
2019
ꢀꢀꢀ
8
Com uterInteratedManufacturin Sstems
ꢀ ꢀ
p g g y
ꢀ
ꢀ
:
/
DOI10.13196 .cims.2019.08.014
j
基于改进
卷积神经网络的行为识别
3D
, , ,
张小俊 李辰政 孙凌宇 张明路
( ,
河北工业大学 机械工程学院 天津
)
300130
ꢀ
:
要 鉴于基于视频的人体行为识别中的视频流数据过于庞大
,
3D
,
卷积核参数设置过多 存在训练时间较
摘
ꢀ
, ,
长 调参困难等问题 以
,
卷积神经网络为基础 提出一种将
3D
卷积核拆分成空间域和时间域两种卷积核的神经
3D
。 , , 。
网络结构 两种卷积核分别形成两个数据流进行交互 同时引入残差网络以优化网络结构 减少参数设置 将所
,
上 进 行 训 练 验 证 其 行 为 识 别 准 确 率 分 别 为 和
96.2%
提方法 应 用 于 两 个 行 为 识 别 数 据 集
和
KTH
UCF101
。
, , ,
结果表明 较改进前的神经网络框架 所提方法在保证动作识别准确度的前提下 训练速度提高了
90.7%
7.5%
。
, ,
该方法可以有效降低深度学习进行行为识别的硬件要求 提高模型训练效率 并可以广泛应用于智能机
7.8%
~
。
器人领域
:
关键词 行为识别
;
3D
; ; ;
卷积神经网络 残差网络 双数据流 深度学习理论
:
:
A
中图分类号
文献标识码
TP242.6
ꢀꢀꢀ
Behaviorreconitionmethodbasedonim roved3Dconvolutionalneuralnetwork
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ
g
p
,
,
,
ZHANGXiaoun LIChenzhen SUNLin u ZHANGMinlu
gy
j
ꢀ
g
ꢀ
ꢀ
g
(
,
,
,
)
SchoolofMechanicalEnineerin HebeiUniversit ofTechnolo Tianin300130 China
ꢀ ꢀ ꢀ g
gy j ꢀ
g
ꢀ
y
ꢀ
ꢀ
:
AbstractInviewofthe roblemsoftoolarevideostreamdataandtooman settin 3Dconvolutionkernel arame
ꢀ ꢀ ꢀp ꢀ ꢀ ꢀ gꢀ ꢀp -
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
g
ꢀ
ꢀ
,
,
tersinhumanbehaviorbasedonvideo whichledtolon trainin timeanddifficult intunin the arameters a
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp
ꢀ
ꢀ
ꢀ
g
ꢀ
g
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
g
ꢀ
methodtodivide3Dconvolutionkernelintotwokindsofconvolutionkernelsthatweresacedomainandtimedo
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp ꢀ ꢀ -
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
mainwas roosedbasedon3Dconvolutionalneuralnetwork.Twodatastreamsformedb twoconvolutionkernels
ꢀp p ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀy ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
wereinteractwitheachother thusthenetworkstructureandreducin arametersettinswereotimizated.The
gp gꢀ ꢀp
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
trainin verificationwas erformedontwobehavioralidentificationdatasetsnamedKTHandUCF101andtheaccu
ꢀp ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ -
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
rac rateofreconitionbehaviorwas96.2%and90.7%resectivel .Theresultsshowedthatthe roosedmethod
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp p
y
ꢀ
g
ꢀ
ꢀ
p
y
ꢀ
ꢀ
,
couldseedu thetrainin roressb 7.5% 7.8%andensurethetrainin accurac atthesametime.Therefore
gp g ꢀy y ꢀ
ꢀp ꢀp ꢀ ꢀ ꢀ ꢀ ꢀ
ꢀ
~
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
thismethodcouldeffectivel reducethehardwarereuirementsfordee learnin inbehaviorreconitionandim rove
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
ꢀ q
ꢀ
ꢀ
p
ꢀ
ꢀ
g
ꢀ
ꢀ p
,
theefficienc ofmodeltrainin whichcouldbewidel usedinthefieldofintellientrobots.
ꢀ ꢀ ꢀ ꢀ ꢀꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
g
ꢀ
y
ꢀ
ꢀ
g
ꢀ
:
;
;
;
Kewords behavior reconition 3D convolutional neural network residual network dualflow data dee
p
;
ꢀ
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
learnin theor
g
ꢀ
y
, 。
别领域 使人体行为识别准确率迅速提高 深度学习
引言
0
ꢀ
,
是一种对数据进行表征学习的方法 它通过组合低层
特征形成更加抽象的高层特征或属性来实现人体行
传统的基于视频的人体行为识别方法采用的是
[
]
13
,
[
]
45
-
-
,
为运动 特 征 提 取 的 自 动 化 其 中 卷 积 神 经 网 络
人工提取运动特征
近些年来随着深度学习理论
,
在图像识别领域的兴起 该理论被应用于人体行为识
(
,
)
在图像特征提
ConvolutionalNeuralNetwork CNN
ꢀ
ꢀ
:
;
修订日期
20180719
:
。 ;
20190321 Received19Jul 2018acceted21 Mar.2019.
ꢀ
收稿日期
-
-
-
-
y
ꢀ
p ꢀ
:
基金项目 国家重点研发 计 划 资 助 项 目
(
)。 : ,
2017 Y FC0806503 Foundationitem Proectsu ortedb theNationalKe R&DProram China
ꢀ
ꢀ
j
ꢀ pp
ꢀy
ꢀ y
ꢀ g
ꢀ
ꢀ
( )
No .2017 Y FC0806503 .
:
张小俊 等 基于改进
2001
第
期
卷积神经网络的行为识别
3D
8
P
-
i
1Q 1R 1
- -
i
i
。 ,
取上表现优异 然而 基于
的特征提取都是针
CNN
(
x
+
p
)( )( )
z r
+
xz
y
r
pq
+
y q
(
+
i
j
)。
v
tanhb
Wimvi 1 m
( )
-
j
=
i
j
,
对单张图片进行二维图像的卷积操作 而人体行为多
∑∑∑∑
m
0
0 r 0
= =
q
=
p
,
为一系列连贯动作 即每相邻视频帧都有动作关联
,
()
2
xz
y
:
v
i
j
,
卷积操作忽略了视频流信息 因此在行为
单一的
2D
( , ,)
位
x z
式中
表示第 层第 个特征映射中
i
j
y
[]
6
。
识别领域难以达到较高的准确率
等
提出
卷
3D
Ji
;
tanh
() ;
为激活函数 为该特征映
b
置处的卷积结果
i
j
r
pq
,
积特征提取的神经网络系统 将
,
扩展到三维 所
CNN
;
m
( )
i-1
;
层中特征映射的索引
Wim
射的偏差
为第
j
(
)
可以同时提取时
构建的
卷积神经网络
3D
3DCNN
( ,,)
处的值
r
p q
; , ,
P Q R
i
为第 个特征映射位置
k
i
i
间域和空间域特征来捕获多个相邻帧间编码的运动
、
为卷积核的宽度 高度和深度
。
,
信息 最后通过在
和
TRECVID KTH
数据集上进行
()
和式
1
() ,
可以看出
2 3D
对比式
卷积增加了时
[]
7
;
Zhu
评估说明该方法效果良好
等
认为一个视频动
,
因此
R
i
,,
,
卷积核为 个维度 其
th w3
间维度核
3D
,
作序列可以通过输入几个关键帧来预测动作分类 其
,
h
。
图
中
t
为时间维度
和
为高和宽的空间维度
w
1
,
余帧均为冗余帧 同时提出用于动作识别的关键帧挖
,
3D
所示共 个连续动作帧
5
卷积核对相邻 帧图像
3
,
掘模型 在
数据集上进行测试后人体行为识
UCF101
,
进行卷积滤波 步长为 则卷积操作提取出 个具
3
,
1
[]
8
;
93.1% Qin
别的准确率达到
等
提出一种融合不同
。
有时间信息的特征图
类型的经典描述符和多通道
的特征融合方
3DCNN
法 用于人体行为识别 其在 数据集上的识别
,
,
KTH
。
准确率达到
95.1%
,
相比于
模型
模型卷积核参
2DCNN
3DCNN
, ,
数增加了一个维度 导致模型参数成倍增加 从而增
。 ,
加了训练的时间和难度 针对上述问题 本文将
3D
, ;
卷积核拆分为两个卷积核 以减少参数设置 将输入
,
数据分流 形成空间卷积数据流和时间卷积数据流
,
;
并在两数据流间进行信息交互 在卷积操作过程引
( ) ,
思想来减少网络训练难度 提
Resnet
入残差网络
。
结构框架设计
高网络训练效率
2
ꢀ
卷积神经网络
卷积核拆分
1 3D
ꢀ
2.1 3D
ꢀ
,
卷积核有 个维度信息 导致神经网络参数
3D
,
卷积核增加 运行速度变慢 训练时间增长
3
是在猫的视觉皮层生物电信号启发下提
CNN
,
,
较
2D
,
出的 如今已广泛应用于图像特征提取
。
CNN
具有
:
例如 设
,
卷积
3×3=93D
卷积核参数的个数为
2D
、 、 ,
权值共享 稀疏连接 可生成多特征图 同时对于形
,
神经网络参数为之
3×3×3=27
核参数的个数为
、 、 。
变 几何变换 光照有一定程度的鲁棒性等优点 传
[]
9
。
前的
倍
在
等
提出的
模
Incetionv3
-
3
Szeed
g y
p
统
卷积过程表示为
2D
,
型中 将空间上的
卷积核分解为
和
3×1 1×3
P
-
i
1Q 1
-
i
3×3
(
)(
)
+
y q
x
y
x
+
p
pq
。()
1
)
v
i
j
tanhb
+
i
j
Wimvi 1 m
( )
-
j
=
ꢀ
(
,
两种卷积核 可使计算量减少
,
并使在融合多
33%
∑∑∑
m
0
0
=
q
=
p
x
y
:
i
j
。
模型后的错误率降低到
17.3%
( , )
为第 层第 个特征映射中 位置处
i x
j
式中
v
y
,
受其启发 本文将
卷积核拆分为如图
所
2
3D
;
tanh
() ;
为激活函数 为该特征映射的
b
的卷积结果
i
j
pq
,
示的两种卷积核 分别从空间域和时间域进行卷积
;
m
(
i-1
)
;
层中特征映射的索引
Wim
偏差
为第
为第
j
。
后融合相加 图中
:
h
,
为卷积核的高与宽 为
t
和
w
( ,)
处的值
p q
; ,
为卷积核的
P Q
个特征映射位置
k
i
i
。
卷积核的时间维度 将大小为 的 卷积
t×h×w 3D
。
宽度和高度
核拆分为
和
1×h×w t×1×1
两种尺寸的卷积核
,
卷积适用于空间维度的特征计算 无
传统
2D
,
对视频流进行卷积操作 其中
卷积核对每
,
法处理视频数据中连续帧的动作信息 而
1×h×w
3DCNN
,
卷积核
t×1×1
一视频帧进行二维图像特征提取
,
加入了相邻帧时间维度信息的卷积操作 能实现连
,
对多视频帧进行深度卷积提取帧间信息 从而捕捉
:
续帧动作的处理
全部评论(0)