推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

深度学习在视频目标跟踪中的应用进展与展望

更新时间:2020-01-01 16:41:21 大小:590K 上传用户:songhuahua查看TA发布的资源 标签:深度学习 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

视频目标跟踪是计算机视觉的重要研究课题,在视频监控、机器人、人机交互等方面具有广泛应用.大数据时代的到来及深度学习方法的出现,为视频目标跟踪的研究提供了新的契机.本文首先阐述了视频目标跟踪的基本研究框架.对新时期视频目标跟踪研究的特点与趋势进行了分析,介绍了国际上新兴的数据平台、评测方法.重点介绍了目前发展迅猛的深度学习方法,包括堆叠自编码器、卷积神经网络等在视频目标跟踪中的最新具体应用情况并进行了深入分析与总结.最后对深度学习方法在视频目标跟踪中的未来应用与发展方向进行了展望.


部分文件列表

文件名 大小
深度学习在视频目标跟踪中的应用进展与展望.pdf 590K

部分页面预览

(完整内容请下载后查看)
42 卷 第 6 期  
2016 6 月  
Vol. 42, No. 6  
June, 2016  
ACTA AUTOMATICA SINICA  
深度学习在视频目标跟踪中的应用进展与展望  
安志勇 1  
管 皓 1  
薛向阳 1  
视频目标跟踪是计算机视觉的重要研究课题在视频监控器人机交互等方面具有广泛应用. 大数据时代的到  
来及深度学习方法的出现为视频目标跟踪的研究提供了新的契机. 本文首先阐述了视频目标跟踪的基本研究框架. 对新时期  
视频目标跟踪研究的特点与趋势进行了分析介绍了国际上新兴的数据平台测方法. 重点介绍了目前发展迅猛的深度学习  
方法包括堆叠自编码器积神经网络等在视频目标跟踪中的最新具体应用情况并进行了深入分析与总结. 最后对深度学习  
方法在视频目标跟踪中的未来应用与发展方向进行了展望.  
关键词 目标跟踪视频分析在线学习深度学习大数据  
引用格式 管皓薛向阳安志勇. 深度学习在视频目标跟踪中的应用进展与展望. 自动化学报, 2016, 42(6): 834-847  
DOI 10.16383/j.aas.2016.c150705  
Advances on Application of Deep Learning for Video Object Tracking  
GUAN Hao1  
XUE Xiang-Yang1  
AN Zhi-Yong1  
Abstract Video object tracking is an important research topic of computer vision with numerous applications including  
surveillance, robotics, human-computer interface, etc. The coming of big data era and the rise of deep learning methods  
have offered new opportunities for the research of tracking. Firstly, we present the general framework for video object  
tracking research. Then, we introduce new arisen datasets and evaluation methodology. We highlight the application  
of the rapid-developing deep-learning methods including stacked autoencoder and convolutional neural network on video  
object tracking. Finally, we have a discussion and provide insights for future.  
Key words Object tracking, video analysis, online learning, deep learning, big data  
Citation Guan Hao, Xue Xiang-Yang, An Zhi-Yong. Advances on application of deep learning for video object tracking.  
Acta Automatica Sinica, 2016, 42(6): 834-847  
视频目标跟踪是计算机视觉领域的重要研究课  
题 其主要任务是获取视频序列中感兴趣的目标的  
位置与运动信息 为进一步的语义层分析 动作识  
景识别等 提供基础 其定义是 给定视频序  
列初始帧中目标的位置框 一般为矩形框 在接下  
来的视频序列中自动给出该目标的位置框或者在目  
标离开视域时给出提示 视频目标跟踪研究在智能  
视频监控机交互器人等领域有广泛应用 具  
语义层的分类 识别 等任务所使用 因此 视频目  
标跟踪是处于视频内容分析研究的中间层次模块  
视频目标跟踪研究有较多分支 内容十分丰富  
按照跟踪目标是否已知 可分为特定目标跟踪与非  
特定目标跟踪 特定目标的跟踪可以利用先验知识  
对目标外观进行建模 典型代表有手的跟踪眼跟  
或脸部跟踪等 其中手的跟踪在人机交互方面  
有重要应用 是未来非接触式交互工具的基础 非特  
有很强的实用价值 视频目标跟踪同视频目标检测、 定目标跟踪对目标无任何先验知识 只能利用第一  
视频分类 识别 一样 都是视频内容分析的重要方  
面 在一个实用的计算机视觉系统中 跟踪的初始状  
态由检测结果所提供 同时其所给出的运动信息为  
帧所给出的标注信息 因其较高的难度一直以来都  
是跟踪研究的重点 按照跟踪目标的数量 可分为单  
目标跟踪和多目标跟踪 单目标跟踪是最早基  
础也是目前研究最多的分支 多目标跟踪研究随着  
近年来数据关联等方法的出现也日益增多并发展较  
快 按照获取目标数据的摄像头的特点 可以分为单  
摄像头跟踪摄像头跟踪和跨摄像头跟踪 也称为  
重识别 单摄像头跟踪最为基础 其特点是无法获  
取目标的深度信息 多摄像头跟踪可以捕获目标多  
个视角的图像 从而获取深度信息 但图像融合难度  
较大 跨摄像头跟踪是近年来跟踪领域里面新兴的  
研究课题 旨在弥补目前固定摄像头的视域局限 在  
目前的安防领域中具有重要的实用价值  
收稿日期 2015-10-26 录用日期 2016-05-03  
Manuscript received October 26, 2015; accepted May 3, 2016  
国 家 自 然 科 学 基 金 (61572138), 上 海 市 科 技 创 新 行 动 计 划 项 目  
(15511104402) 资助  
Supported by National Natural Science Foundation of China  
(61572138) and Science and Technology Commission of Shanghai  
Municipality (15511104402)  
本文责任编委 柯登峰  
Recommended by Associate Editor KE Deng-Feng  
1. 复旦大学计算机科学技术学院上海市智能信息处理重点实验室 上海  
201203  
1. Shanghai Key Laboratory of Intelligent Information Process-  
ing, School of Computer Science, Fudan University, Shanghai  
201203  
6 期  
管皓等深度学习在视频目标跟踪中的应用进展与展望  
835  
此外 还有刚体跟踪与非刚体跟踪线跟踪与  
在线跟踪、 跟踪外小目标跟踪等研究分  
某一特征空间 从而为后面不同外观模型的处理提  
供基础 外观模型旨在对目标外观进行有效建模与  
描述 从而将目标以最大的区分度被跟踪系统搜索  
到 具体跟踪时 通过计算候选样本的相似度信  
度 得分最高的样本被确定为最终的预测结果  
目标在新一帧视频中的位置最终确定以后 一  
般要利用新得到的数据对目标的外观模型进行更新  
操作 这样做的目的是适应目标在线运动过程中外  
观的变化  
支 限于篇幅 本文不再一一列举 本文主要以单摄  
像头下的单目标跟踪进行说明 该部分研究的历史  
较长 成果最为丰富 是目前视频目标跟踪的主流内  
容 最能体现跟踪的本质特点 而其他分支的内容则  
多与图形学像识别以及具体领域知识等有所交  
叉融合  
将视频中目标的运动信息进行提取一直以来都  
是多媒体内容分析研究中的重要方面 因此视频目  
标跟踪是一个研究历史并不短的课题 许多经典的  
运动模型  
在视频序列中对目标的位置进行预测时 会在  
上一帧跟踪框的基础上 在原目标位置周围产生一  
定数量的候选位置 跟踪算法就是要在这些候选位  
置中寻找出一个最优解 运动模型在此过程中起到  
核心作用 即按照一定规则产生候选位置样本 连续  
两帧之间目标的位置不会相距过远 运动模型就是  
依据这个基本约束来以较高效率提供候选 这是与  
基于全图像扫描的目标检测的根本不同之处 目前  
运动模型主要分为三种  
视频目标跟踪算法如均值漂移  
已经作  
为标准模块集成到影响较大的计算机视觉开发库如  
等当中 虽然其发展一直较为缓慢 但是  
随着目前大数据时代的到来 在新时期下视频目标  
跟踪研究取得了突飞猛进式的发展并呈现出许多新  
的特点 这主要得益于机器学习理论和技术的发展  
以及较大规模跟踪数据集和评测平台的建设 尤其  
值得重视的是 目前机器学习的前沿领域 在多媒体  
识别领域中取得了巨大成功的深度学习方法也开始  
在视频目标跟踪研究中得以应用并取得了良好效果  
本文在介绍视频目标跟踪研究的基本框架及自身特  
点的基础上 重点介绍深度学习方法在视频目标跟  
踪研究中的最新应用情况 通过结合视频目标跟踪  
自身的特点 对具体应用深度学习时存在的困难与  
挑战进行了分析和探讨 最后对其未来发展进行分  
析和展望  
均值漂移  
均值漂移 是一种基于核密度估计的非参数估  
计方法 文献  
中首先将均值漂移算法应用于跟踪  
问题 此后成为经典跟踪方法 在跟踪时 需要设定  
一个目标函数来计算目标与候选窗口的核密度 而  
后利用  
准则作为匹配条件 通过移  
动均值向量来不断优化目标函数从而完成目标搜索  
由于通过梯度优化来完成搜索 因此基于均值漂移  
的跟踪算法运行速度快时性高  
1 视频目标跟踪系统框架及关键技术  
滑动窗口  
一般性视频目标跟踪系统的运行流程及框架如  
图1所示  
在目标周边正方形或者圆形范围内进行穷举搜  
索的采样策略 也称为密集采样 这种方式将搜索范  
围内所有可能的潜在位置都予以考虑 但是要付出  
较大的计算代价  
粒子滤波  
粒子滤波在经典的卡尔曼滤波的基础上发展而  
[2] 先验概率密度用加权粒采样样本 粒子 来近  
似表示 每个粒子的权值表示了该样本的重要程度  
每次跟踪结果确定后 会根据不同粒子的重要程度  
进行重采样 粒子滤波方法具有较高的计算效率 同  
时可以融入仿射变换信息 因此目前在一些较好的  
跟踪算法中应用较多  
1 视频目标跟踪系统框架  
Fig. 1 The framework of video object tracking  
从整体上分为输入视频动模型征提取、  
外观模型置确定型更新等几个步骤 初始化  
由视频序列中的第一帧给定 一般由一个矩形框来  
标定待跟踪的目标 运动模型利用视频序列的时空  
关联性 在目标潜在空间范围内进行搜索或采样 为  
后面的特征提取观模型提供样本 特征提取是  
对目标外观进行有效编码 从二维图像空间映射到  
特征提取  
特征是对目标的抽象化表示 即从目标原始空  
间映射到某一特征空间 特征提取过程就是将原始  
图像数据通过转换得到更有利于描述需求的表达方  
式 在多媒体内容分析的各个领域 特征表达与提取  
都是最重要的内容之一 对于视频目标跟踪而言 好  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载