推荐星级:
- 1
- 2
- 3
- 4
- 5
构建多尺度深度卷积神经网络行为识别模型
资料介绍
为了减化传统人体行为识别方法中的特征提取过程,提高所提取特征的泛化性能,本文提出了一种基于深度卷积神经网络和多尺度信息的人体行为识别方法。该方法以深度视频为研究对象,通过构建基于卷积神经网络的深度结构,并融合粗粒度的全局行为模式与细粒度的局部手部动作等多尺度信息来研究人体行为的识别。MSRDailyActivity3D数据集上的实验得出该数据集上第11~16种行为的平均识别准确率为98%,所有行为的平均识别准确率为60.625%。结果表明,本方法能对人体行为进行有效识别,基本能准确识别运动较为明显的人体行为,对仅有手部局部运动的行为的识别准确率有所下降。
部分文件列表
文件名 | 大小 |
构建多尺度深度卷积神经网络行为识别模型.pdf | 2M |
部分页面预览
(完整内容请下载后查看)第
卷
第
期
3
光学 精密工程
ꢀ
25
ꢀ
Vol.25 No.3
ꢀ
ꢀꢀꢀꢀꢀ ꢀꢀꢀꢀ
ꢀ ꢀꢀ ꢀꢀꢀ
O ticsandPrecisionEnineerin
ꢀ p ꢀ ꢀ ꢀ g
g
年
月
ꢀ ꢀ
2017
3
Mar.2017
ꢀ ꢀ
( )
1004924X201703079907
-
文章编号
ꢀ
-
-
构建多尺度深度卷积神经网络行为识别模型
1
2
*
黄江涛
1
,
,
冯
刘
智
欣
ꢀ
ꢀ
( ,
重庆理工大学 计算机学院 重庆
1.
;
400054
,
广西师范学院 计算机与信息工程学院 广西 南宁
2.
)
530001
: , ,
摘要 为了减化传统人体行为识别方法中的特征提取过程 提高所提取特征的泛化性能 本文提出了一种基于深度卷积
。 ,
神经网络和多尺度信息的人体行为识别方法 该方法以深度视频为研究对象 通过构建基于卷积神经网络的深度结构
,
。
并融合粗粒度的全局行为模式与细粒度的局部手部动作等多尺度信息来研究人体行为的识别
数
MSRDailActivit3D
y y
,
所有行为的平均识别准确率为
60.625%
。
据集上的实验得出该数据集上第
种行为的平均识别准确率为
11 16
~
98%
, , ,
结果表明 本方法能对人体行为进行有效识别 基本能准确识别运动较为明显的人体行为 对仅有手部局部运动的行为
。
的识别准确率有所下降
: ; ; ; ;
词 卷积神经网络 深度学习 人体行为识别 计算机视觉 多尺度
ꢀ
关
键
ꢀ
: ;
TP394.1 TH691.9
ꢀꢀ
:
文献标识码
A
:
/
中图分类号
doi10.3788 O PE .20172503 .0799
ꢀꢀ
Actionreconitionmodelconstructionbased
ꢀ ꢀ ꢀ ꢀ
g
onmultiscaledee convolutionneuralnetwork
ꢀ
- ꢀ ꢀ ꢀ
p
ꢀ
1
,
LIUZhi HUANGJian tao
2
1
*
,
FENGXin
ꢀ
ꢀ ꢀ
ꢀ
g
-
(
,
1.Colleeo Com uterScienceandEnineerin
ꢀ
g
ꢀ
g f
ꢀ
ꢀ
g
p
ꢀ
,
,
;
Chon in 400054 China
gq g
Chon in Universit o Technolo
gq g y f gy
ꢀ ꢀ
ꢀ
,
2.Colleeo Com uterandIn ormationEnineerin
ꢀ
g
ꢀ
g f
ꢀ
ꢀ
g
p
f
ꢀ
, ,
Guan xiTeachersEducationUniversit Nannin 530001 China
ꢀ
)
ꢀ
ꢀ
g
y
g
,
Corresondin author Emailht xtc.edu.cn
-
:
@
j g
*
p
g
ꢀ
: (
Abstract Inordertosim lif thefeatureextractin rocessofHumanActivit Reconition HAR
ꢀ
)
ꢀ
ꢀ ꢀ p y
ꢀ
gp
ꢀ
ꢀ ꢀ
ꢀ
y
ꢀ
g
ꢀ
,
andim rove the eneralization of extracted feature an alorithm based on multiscale dee
ꢀg ꢀ ꢀ ꢀ g
p
ꢀ
p
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
-
ꢀ
,
convolutionneuralnetworkwas roosed.Inthisalorithm thedethvideowasselectedasresearch
ꢀp p ꢀ g ꢀ p ꢀ ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ ꢀ
(
)
obectanda arallelCNN Convolution NeuralNetwork baseddee network wasconstructedto
j ꢀ ꢀꢀp
ꢀ
ꢀ
ꢀ
ꢀ
p
ꢀ
ꢀ
ꢀ
ꢀ
rocesscoarse lobalinformation oftheaction andfine rainedlocalinformation ofhand art
ꢀg ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp
p
ꢀ
-
g
ꢀ
simultaneousl .ExerimentswereexecutedonMSRDailActivit3Ddataset.Theaveraereconition
ꢀ ꢀ ꢀ ꢀ ꢀ
y y gꢀ
y
p
g
,
accurac onactionsranin from No.11toNo.16was98% whilethatonallactionswas60.625%.
g g
ꢀ ꢀ ꢀ
y
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ ꢀ
ꢀ
Theexerimentalresultsshowedthat roosedalorithmcouldtakeeffectivereconitionforhuman
ꢀ p ꢀ ꢀp p ꢀ g ꢀ ꢀ ꢀ ꢀ
ꢀ
ꢀ
g
ꢀ ꢀ
activit .Almostalloftheactionswithobviousmovementsandmostofactionswithlocalmovements
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ
y
ꢀ ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
:
;
:
修订日期
20170115.
收稿日期
20161221
- -
ꢀꢀ
-
-
:
基金项目 重 庆 市 教 委 科 学 技 术 研 究 基 金 资 助 项 目
(
); (
广 西 自 然 科 学 基 金 重 点 项 目
No.
No .KJ1400926
ꢀꢀ
)
2014GXNSFDA118037
光学 精密工程
ꢀ
第
卷
ꢀ
25
800
ꢀꢀꢀꢀꢀ
ꢀꢀꢀꢀꢀ
ustinhandscouldbereconizedeffectivel .
ꢀ ꢀ ꢀ ꢀ
j ꢀ ꢀ g y
: ; ; ;
Ke words convolutionneuralnetwork dee learnin humanactivit reconition com utervision
ꢀ
;
ꢀ
ꢀ
p
ꢀ
g
y
ꢀ
g
p
ꢀ
y
ꢀ
multiscale
-
; ,
泛化到其他数据 计算开销太大 很难做到实时
。
性
深度学习能自动提取隐藏在数据间的多层特
引 言
1
ꢀ ꢀ
, ,
征表示 已经成功应用于语音识别 图像识别与分
,
目前 有关人体行为识别的研究越来越引起
, 。
类 分 割 等 领 域 鉴 于 深 度 学 习 的 上 述 优 点
,
[ ]
10
,
计算机视觉研究工作者的重视 并已广泛应用于
等 人
运 用 独 立 子 空 间 分 析
Quoc V.Le
ꢀ
, , ,
自动监控 事件检测 人机接口 视频获取等各个
(
,
)
算法自动
IndeendentSubsaceAnalsisISA
p
ꢀ
p
ꢀ
y
。
领域 传统的人体行为识别方法主要基于人工设
,
学习视频数据中稳定的时空特征 然后使用深度
,
计 特 征 如 方 向 梯 度 直 方 图
(
。 [ ]
的多层表示 文献 利用
11
结构学习
Historams of
g
ꢀ
ISA
CNN
[]
1
) ,
运 动 历 史 图 像
,
Oriented Gradient HOG
ꢀ
,
构造多层深度结构 提出 了
,
算法 用于
PANDA
[]
2
(
,
MotionHistor Imae MHI
g
)
,
等 然后采用支
( 、 、
识 别 人 的 属 性 如 性 别 发 型 表 情 等
)。
ꢀ
y
ꢀ
[]
3
持向量机 等分 类 器 对 提 取 的 特征 进行 分 类 识
[ ]
12
方法也是基于
构建深度神经网
DeePose
p
CNN
[]
4
。
, ,
络 该方法不但用于图像中人体姿势的识别 也对
别
等人 通过提取视频中有代表性
Wanin Li
q g
(
,
)
来表示人体
Ba of3DPointsBOPs
g ꢀ
。 [ ]
图像中的目标定位进行了探索 文献 则基于
13
的
词袋
3D
ꢀ
,
的一系列姿势 然后以
, ,
限制波尔茨曼机 构造出自举深度信念网络 用于
为点构建人体行为
BOPs
[
]
14
等人 在其最新的研
,
图 通过计算行为图上每一条路径的概率进行人
。
Kaimin He
g
ꢀ
人脸的识别
。
体行为识别 文献
[]
研究了运动背景下的行为
2
,
的深度神经网络 其
究中同样使用了基于
CNN
,
识别 首先提取人 体 的
,
特征 然 后 用
,
贡献在于使用空间池化技术对输入进行处理 从
MHI
HOG
,
进行特征描述 最后使用高斯混合模型
(
,
而使得该算法能对任何大小的图像进行分类 而
Gaussian
,
Mixture Model GMM
ꢀ
)
。
进 行 行 为 的 分 类 识 别
传统基于 的深度学习方法需要将输入规范
CNN
[]
5
等 人 则 利 用 深 度 视 频 中 的 骨 架 信
g
。
化到统一尺寸 为了提高深度学习算法的泛化性
Jian Wan
g
ꢀ
[ ]
15
,
息 通过逐帧计算每个关节相对其他关节的位置
,
,
等人 提出了网络嵌套的思想 即网
MinLin
能
ꢀ
(
。
络中的某一个节点可以嵌套一个网络进行学习
和每个 关 节 的 局 部 占 位 模 式
LocalOccuanc
ꢀ
p y
, ),
提 出 了
PatternsLOP
[ ]
不但深刻剖析了基于
16
组 合 模 型 来 描
文献
的深度神经
actionlet
CNN
[]
6
[ ]
15
等人 的思
。
,
网络的思想 而且还借鉴了
MinLin
述人体行为
和
LuXia J.K.A arwal
gg
先抽取
ꢀ
ꢀ
(
, ,
想 提出了一个更深层次的网络 取得了较好的
深 度 视 频 的 时 空 兴 趣 点
SatioTem oral
-
p p
, ),
然后以各
InterestPointsSTIPs
ꢀ
,
。
效果
为中心
STIP
, ,
综上 基于特征提取的算法时间开销太大 难
构造 出 表 示 人 体 行 为 的 深 度 立 方 相 似 特 征
(
,
Deth CuboidSimilarit Feature DCSF
p ꢀ
)。
。 ,
以实现实时处理 近些 年 来 基于
受
的 深 度
CNN
ꢀ
y
ꢀ
,
,
神经网络在人工智能领域的应用较为广泛 然而
思 想 的 启 发
和
Zichen
g
HOG
Omar Oreife
ꢀ
j
[]
7
、 、
关于它的研究主要集中在图像识别 分割 定位等
针对深度视频设计了方向四维法线直方图
Liu
(
,
Historam ofOriented4D Normals HON4D
ꢀ
)
,
方面 对基于视频的人体行为识别的研究仍比较
g
ꢀ ꢀ
。
特征 为 了 同 时 强 调 人 体 轮 廓 和 运 动 的 作 用
,
。
,
视频 深度视频能提供
RGB
少
同时相较于传统
[]
8
,
人体 的 三 维 几 何 信 息 而 且 对 光 线 变 化 不 敏
和
则对深度运动
Chenan Zhan
y g
ꢀ
YinliTian
g ꢀ
g
[
]
17
。 ,
基于 此 本 文 以 深 度 视 频 数 据 为 研 究 对
(
,
DethMotionMa DMM
p ꢀ
ꢀ p
) ,
特征进行扩展 提
图
感
(
DMM Ede Enhanced DMM
gꢀ
,
,
象 通过构建基于
,
的深度神经网络结构 并
出 了 边 加 强
CNN
ꢀ
2
ꢀ
E DMM
)
特征
。
融合全局的人体行为信息和局部的手部动作等多
,
尺度信息 使用传统的二维
基于人工特征提取的人体行为识别的研究取
来研究三维的
CNN
[]
9
,
。
人体行为识别 本文的创新在于
:
得了很多优秀成果
然而也存在一些难以解决
: ,
的问题 提取的特征对训练数据具有依赖性 不易
()
使用图像处理中的二维
1
构 建 深 度
CNN
全部评论(0)