推荐星级:
- 1
- 2
- 3
- 4
- 5
基于生物视觉特征和视觉心理学的视频显著性检测算法
资料介绍
提出了一种空域和时域相结合的视频显著性检测算法.对单帧图像,受视觉皮层层次化感知特性和Gestalt视觉心理学的启发,提出了一种层次化的静态显著图检测方法.在底层,通过符合生物视觉特性的特征图像(双对立颜色特征及亮度特征图像)的非线性简化模型来合成特征图像,形成多个候选显著区域;在中层,根据矩阵的最小Frobenius-范数(F-范数)性质选取竞争力最强的候选显著区域作为局部显著区域;在高层,利用Gestalt视觉心理学的核心理论,对在中层得到的局部显著区域进行整合,得到具有整体感知的空域显著图.对序列帧图像,基于运动目标在位置、运动幅度和运动方向一致性的假设,对Lucas-Kanade算法检测出的光流点进行二分类,排除噪声点的干扰,并利用光流点的运动幅度来衡量运动目标运动显著性.最后,基于人类视觉对动态信息与静态信息敏感度的差异提出了一种空域和时域显著图融合的通用模型.实验结果表明,该方法能够抑制视频背景中的噪声并且解决了运动目标稀疏等问题,能够较好地从复杂场景中检测出视频中的显著区域.
部分文件列表
文件名 | 大小 |
基于生物视觉特征和视觉心理学的视频显著性检测算法.pdf | 3M |
部分页面预览
(完整内容请下载后查看)物 理 学 报 Acta Phys. Sin. Vol. 66, No. 10 (2017) 109501
基于生物视觉特征和视觉心理学的视频显著性
∗
检测算法
方志明 崔荣一 金璟璇†
(延边大学工学院计算机科学与技术系, 智能信息处理实验室, 延吉 133002)
( 2016 年 11 月 18 日收到; 2017 年 2 月 18 日收到修改稿 )
提出了一种空域和时域相结合的视频显著性检测算法. 对单帧图像, 受视觉皮层层次化感知特性和
Gestalt 视觉心理学的启发, 提出了一种层次化的静态显著图检测方法. 在底层, 通过符合生物视觉特性的特
征图像 (双对立颜色特征及亮度特征图像) 的非线性简化模型来合成特征图像, 形成多个候选显著区域; 在中
层, 根据矩阵的最小 Frobenius-范数 (F-范数) 性质选取竞争力最强的候选显著区域作为局部显著区域; 在高
层, 利用 Gestalt 视觉心理学的核心理论, 对在中层得到的局部显著区域进行整合, 得到具有整体感知的空域
显著图. 对序列帧图像, 基于运动目标在位置、运动幅度和运动方向一致性的假设, 对 Lucas-Kanade 算法检
测出的光流点进行二分类, 排除噪声点的干扰, 并利用光流点的运动幅度来衡量运动目标运动显著性. 最后,
基于人类视觉对动态信息与静态信息敏感度的差异提出了一种空域和时域显著图融合的通用模型. 实验结果
表明, 该方法能够抑制视频背景中的噪声并且解决了运动目标稀疏等问题, 能够较好地从复杂场景中检测出
视频中的显著区域.
关键词∶ 显著性检测, 非线性简化, Gestalt 视觉心理学, Lucas-Kanade算法
PACS∶ 95.75.Mn, 42.30.Tz, 42.30.Va
DOI∶ 10.7498/aps.66.109501
出了一种基于多尺度图像特征融合的显著性检测
方法. 在此基础上, Itti 和 Koch [10] 增加了运动特
征, 从而将该模型扩展到视频中的显著性检测. 该
类方法计算量较大, 对噪声敏感, 受图像复杂度的
影响较大. 基于块的方法, Cheng 等 [11] 将原图像
过分割成多个区域, 然后提取颜色直方图和空间位
置来计算区域的显著度, 从而提取显著性目标. 该
类方法的检测结果取决于块分割的准确性. 此外,
Liu 和 Wang [12] 基于中心 -周围差异, 提出了一种
结合局部块的变化对比和全局感知的方法, 该方法
简单快速. 基于频率谱的方法, Guo 等 [13] 通过实
验发现图像的相位谱残差 (PFT) 的显著性检测方
法优于幅度谱残差 (SR) [14] 方法. 在此基础上, 将
颜色、亮度和运动特征组成一个四元数组并提出了
QPFT 的方法, 同时可用于视频的显著性检测. 该
1 引
言
近几十年, 随着神经心理学和神经解剖学的
发展, 视觉显著性逐步成为计算机视觉的热点.
视频的显著性区域检测可用于简化复杂视频场
景, 过滤与任务相关性较弱的信息, 保留与当前
任务相关度较高的信息 [1]. 自动完成视频的显著
性区域检测成为视频内容感知 [2]、视频编码 [3,4]
无人驾驶 [5] 和视频摘要等 [6−8] 任务的重要基础
任务.
显著性检测方法主要分为四类∶ 基于像素的检
测模型、基于块的检测模型、基于频率的检测模型
和基于低秩重建的检测模型. 基于像素的检测模
型以像素为基本单位, 在不同特征下进行图像显著
性的计算. Itti 等 [9] 模拟视觉系统的神经机制, 提
、
∗
†
吉林省科技发展计划项目 (批准号: 20140101186JC) 资助的课题.
通信作者. E-mail:
© 2017 中国物理学会 Chinese Physical Society
109501-1
物 理 学 报 Acta Phys. Sin. Vol. 66, No. 10 (2017) 109501
类方法不仅受背景复杂程度干扰严重, 且检测出的
等三种方法. 帧差法算法简单快速, 但不能检测出
运动幅度的大小. 背景差分法过度依赖背景模型的
准确性. 光流法主要优点是能够用于计算各像素的
运动幅度和方向, 主要缺点是检测结果受噪声的干
扰严重.
显著区域为一系列分散的点, 不利于显著区域的
完整分割与提取. 此外, 该方法运动显著性检测结
果受时间间隔参数的影响较大且无法衡量运动显
著性. 基于低秩重建的方法, Zhu 和 Wang [15] 以及
Tao 等 [16] 将图像表示为低秩部分 (非显著性部分)
和稀疏部分 (显著性部分), 通过低秩矩阵恢复得到
显著图. Xue等 [17] 通过在X-t和Y -t方向将低秩矩
阵分解的方法来提取视频中的显著性目标. 此类方
法检测结果受参数选取及背景复杂度的影响大且
只保证了检测结果是稀疏的, 并不意味检测结果是
显著的.
此外, 从目标和背景的分割角度考虑显著性目
标提取, 马兆勉和陶纯堪 [18] 以及金左轮等 [19] 认为
目标前景在纹理特征上相对于背景更加光滑. 金
左轮等利用纹理粗糙度来计算图像的显著性, 由
于缺少颜色特征, 导致彩色目标漏检. 纹理特征
与颜色特征具有相关性, 纹理粗糙程度在颜色空
间分布上呈现出连贯性和集中性等特点. 因此, 在
自然图像中, 纹理特征的部分信息可以由颜色特
征来体现. 从信息论的角度考虑, 人造目标的出现
会引起自然场景的统计特性发生变化 [20]. 许元男
等 [21] 利用 Wigner-Ville 分布和 Rényi 熵来计算显
著图. 由于缺少空间分布和颜色分布等先验知识,
该方法只能应用于灰度图像, 且检测结果的完整性
较差.
除了以上方法及以上方法的改进算法, 近两年
出现了大量利用深度学习 [22−24] 的方法来做显著
性检测的文献, 其原理为通过构建、训练神经网络
来生成显著图. 此类算法需要庞大的数据集和手
工标注数据集, 计算量大且不宜用于视频显著性的
检测.
以上文献中视频显著性检测都是在图像显
著性检测算法中, 将使用帧差法检测出的运动目
标 [13] 作为显著性运动目标, 因此检测结果不理想.
文献 [25] 总结相关文献发现视频显著性检测大多
是将视频显著值归结为先计算两种显著值即运动
显著值和静态显著值, 然后融合两者结果. 与此同
时, 该文献采用结合滤波器的金字塔光流法进行动
态显著性估计, 该方法计算量较大, 且金字塔模型
不适用于分辨率较低的视频. 目前, 视频运动目标
检测主要有帧差法 [26]、背景差分法 [27]、光流法 [28]
Elazary 和Itti [29] 通过大量标注的图像数据测
试, 认为场景中的显著性区域受低层视觉属性的
影响较大. 针对上述文献存在的问题, 本文提出
了一种基于双对立颜色特征、Gestalt 视觉心理学
和光流法的空域和时域显著性融合的显著性检测
算法. 在空域, 显著性检测基于生物视觉特性的双
对立颜色特征和亮度特征, 模型具有层次结构, 自
底向上, 图像逐渐简化, 利用 Gestalt视觉心理学主
要理论使得显著目标具有一定的整体性. 在时域,
基于运动目标所在位置、运动幅度和运动方向一
致性假设, 利用 Lucas-Kanade 算法 (简称 LK 光流
法) [30] 并通过二分类进行降噪处理来计算运动显
著性, 使其适用于低分辨率复杂视频显著性检测.
最后在不同颜色空间中融合了空域和时域的显著
性检测结果, 该模型实现了视频的时空显著性检
测, 实验中对低分辨视频进行测试, 取得了较好的
实验结果.
2 视频显著性检测框架
视觉显著性检测的原理是通过模仿人类视觉
注意机制的方法来获得显著性区域. 视觉显著性描
述了一个目标区域在一个场景中的独特性或吸引
视觉注意的能力, 这种能力来自生物视觉特性或由
观察者受先验知识导致的. 视频显著性检测和图像
显著性检测的主要区别在于视频具有运动特征.
由于视频种类繁多, 目前没有一种时空显著性
融合方法能够应用于所有类型的视频. 本文将人眼
对彩色信息比灰度信息更为敏感和人眼对运动信
息比静态信息更敏感的两大特性一一对应, 将视频
的单帧图像静态显著性和序列帧图像显著性检测
结果分别用灰度颜色模型和孟塞尔色系模型 [31]
表
示, 提出了一种通用各个场景、基于视觉敏感度的
显著性可视化的表示方法. 在复杂场景视频的单
个画面中既能够同时显示两种显著性的结果, 又能
够不致使画面过于复杂、混乱. 显著性检测框图如
图 1 所示.
109501-2
全部评论(0)