推荐星级:
- 1
- 2
- 3
- 4
- 5
基于全卷积网络的语义显著性区域检测方法研究
资料介绍
基于底层视觉特征和先验知识的显著性区域检测算法难以检测一些复杂的显著性目标,人的视觉系统能分辨这些目标是由于其中包含丰富的语义知识.本文构建了一个基于全卷积结构的语义显著性区域检测网络,用数据驱动的方式构建从图像底层特征到人类语义认知的映射,提取语义显著性区域.针对网络提取的语义显著性区域的缺点,本文进一步引入颜色信息、目标边界信息、空间一致性信息获得准确的超像素级前景和背景概率.最后提出一个优化模型融合前景和背景概率信息、语义信息、空间一致性信息得到最终的显著性区域图.在6个数据集上与15种最新算法的比较实验证明了本文算法的有效性和鲁棒性.
部分文件列表
文件名 | 大小 |
基于全卷积网络的语义显著性区域检测方法研究.pdf | 2M |
部分页面预览
(完整内容请下载后查看)第 11 期
电ꢀ
ꢀ
子ꢀ
ꢀ
学ꢀ
ꢀ
报
Vol.45ꢀ No.11
Nov.ꢀ 2017
2017 年 11 月
ACTA ELECTRONICA SINICA
基于全卷积网络的
语义显著性区域检测方法研究
郑云飞1,2,3,张雄伟1,曹铁勇1,孙ꢀ 蒙1
(1.解放军陆军工程大学,江苏南京 210007;2.解放军炮兵防空兵学院,安徽合肥 230031;
3.安徽省偏振成像与探测重点实验室,安徽合肥 230031)
ꢀ ꢀ 摘ꢀ 要:ꢀ 基于底层视觉特征和先验知识的显著性区域检测算法难以检测一些复杂的显著性目标,人的视觉系统
能分辨这些目标是由于其中包含丰富的语义知识.本文构建了一个基于全卷积结构的语义显著性区域检测网络,用数
据驱动的方式构建从图像底层特征到人类语义认知的映射,提取语义显著性区域.针对网络提取的语义显著性区域的
缺点,本文进一步引入颜色信息、目标边界信息、空间一致性信息获得准确的超像素级前景和背景概率.最后提出一个
优化模型融合前景和背景概率信息、语义信息、空间一致性信息得到最终的显著性区域图.在 6 个数据集上与 15 种最
新算法的比较实验证明了本文算法的有效性和鲁棒性.
关键词: ꢀ 语义信息; 全卷积网络; 颜色外观模型; 显著性区域检测
中图分类号: ꢀ TP391ư 4ꢀ ꢀ ꢀ 文献标识码: ꢀ Aꢀ ꢀ ꢀ 文章编号: ꢀ 0372⁃2112 (2017)11⁃2593⁃09
电子学报 URL: http:/ / www.ejournal.org.cnꢀ
DOI: 10.3969/ j.issn.0372⁃2112.2017.11.004
The Semantic Salient Region Detection Algorithm
Based on the Fully Convolutional Networks
ZHENG Yun⁃fei1,2,3 ,ZHANG Xiong⁃wei1 ,CAO Tie⁃yong1 ,SUN Meng1
(1.The Army Engineering University of PLA,Nanjing,Jiangsu 210007,China;
2.The Army Artilery and Defense Academy of PLA,Hefei,Anhui 230031,China;
3.The Key Laboratory of Polarization Imaging Detection Technology,Hefei,Anhui 230031,China)
Abstract:ꢀ The existing salient region detection algorithms based on visual stimulus and prior knowledge are difficult
to detect some complicated salient regions. The human vision system can distinguish these complicated salient regions
because of the rich semantic knowledge in the human visual system.We construct a semantic salient region detection network
using the fully convolutional structure.Learning the mapping from the low⁃level features to the human semantic cognition,
our network can extract semantic salient region effectively.Aiming to the defects of the semantic salient region map,we in⁃
troduce the color information,object boundary information and spatial consistency information to derive accurate superpixel⁃
level foreground and background probability. At last, we fuse the foreground and background probability, semantic
information and spatial consistency information to derive the final salient region map.The experiments comparing with the
state⁃of⁃the⁃art 15 algorithms on 6 data sets demonstrate the effectiveness of our algorithm.
Key words:ꢀ semantic information;fully convolutional network;color appearance model;salient region detection
的图像数据中提取出最感兴趣的区域,大大提高了数
1ꢀ 引言
据处理的效率.近年来,大量研究者在研究并试图模仿
这种视觉注意机制,让计算机具备迅速找到图像中显
著区域 的 能 力, 并 将 其 应 用 在 多 种 计 算 机 视 觉 任
ꢀ ꢀ 人的视觉系统每秒钟能处理约 108 ~ 109 比特的图
像数据[1] ,这种强大的数据处理能力主要得益于视觉
系统中的注意机制.视觉注意机制使视觉系统能从庞大
务中[2~4]
.
收稿日期:2016⁃08⁃11;修回日期:2016⁃12⁃08;责任编辑:马兰英
基金项目:国家自然科学基金(No.61471394);国家青年自然科学基金( No.61402519);江苏省自然科学基金( No.BK2012510,No.BK20140071,
No.BK20140074)
电ꢀ ꢀ 子ꢀ ꢀ 学ꢀ ꢀ 报
现有视觉注意模型按照用途可分为视觉关注度预
2017 年
2594
测模型和显著性区域检测模型[4] .视觉关注度预测模型
侧重于预测人眼对图像中每个像素的关注程度,显著
性区域检测模型侧重于检测出图像中的显著性目标,
本文的研究属于后者.
当前大多数的显著性区域检测模型主要使用底层
视觉特征结合先验知识计算显著性,底层视觉特征如
颜色、纹理等,先验知识如稀有性[5~8] 、紧凑性[9] 、稀疏
性
[10] 、边界先验[11] 、中心先验[12] 等.程等人[6] 通过颜色
对比度衡量区域的稀有性,计算显著性区域;鲍[7,8]
等
人用剪切波变换系数的概率密度衡量稀有性并计算显
著度;文献[9]认为显著性区域比背景区域有更紧凑的
颜色分布,并以此衡量显著性;文献[11]认为图像边界
上的区域是背景区域,根据与边界区域在颜色、纹理上
的差异大小衡量显著性.
3ꢀ 语义显著性区域检测网络
3.1ꢀ 网络结构
以往模型难以提取语义显著性区域的主要原因是
它们在预处理时先对图像进行过分割,导致模型无法
从语义的角度分析区域的显著性. 文献 [ 21] 提出的
FCSSN 模型,不需要对图像进行预分割,用端到端的方
式(end⁃to⁃end)将整个图像作为处理对象进行训练和预
测.本文受上述思想的启发,构建了端到端的语义显著
最新的显著性检测算法[6,11~17] 在简单的图像上已
经取得了较理想的效果,但它们难以检测图像中的一
些复杂显著性目标,如颜色非均质的目标、低对比度目
标、大尺度目标.心理学的研究[18] 表明人的视觉系统更
趋向于将目标区域作为整体关注,人的视觉系统包含
大量高层次的目标语义知识,这是人比机器更擅长迅
速找到显著目标的重要原因之一,但如何从图像中提
取语义信息并应用到显著性区域检测中是一个难题.
语义信息反映的是从图像底层特征到符合人类认
知的目标的关系,因此语义信息抽取的关键是建立从
性区域检测网络.网络构造的基本思想是将 VGG[22]
识
别网络改造成全卷积结构并添加反卷积层,使网络可
以直接将原始图像和对应的显著性区域标准图作为训
练数据训练,建立从图像底层特征到语义认知的映射,
提取语义显著性区域.VGG 网络是层次化的图像表示
与特征提取模型,图 2 为 VGG 网络第 10、20、30、38 层
输出的部分特征图,可以看出越浅卷积层提取的特征
越接近强度、边缘等底层空间特征,越深卷积层提取的
特征越接近图像中的语义目标区域.因此想要有效提取
图像中的语义信息,需要利用最深卷积层的输出特征
图.然而,网络输出特征图的尺寸比原始图像小很多,因
此本文在 VGG 网络最深卷积层后面加上反卷积层,将
网络输出的小尺寸语义特征图插值到原始图像的尺寸.
原始图像特征到符合人类认知的目标含义的映射[19,20]
.
本文受基于全卷积网络的语义分割模型[21](Fully Conv⁃
olutional Semantic Segmentation Networks, FCSSN) 的 启
发,构建了基于全卷积结构的语义显著性区域检测网
络(Semantic Salient Region Detection Network,SSRDN),
用数据驱动的方式学习从图像底层特征到人类语义认
知的映射,提取图像中的语义显著性区域,并对其进一
步优化,计算出最终的显著区域图.本文的贡献主要有
两点:(1)提出了一种基于全卷积结构的语义级显著性
区域提取方法.(2)提出了一种基于语义显著性区域的
显著性优化方法.
2ꢀ 本文模型结构
ꢀ ꢀ 本文模型结构如图 1 所示,先用本文的 SSRDN 网
络提取图像中的语义显著性目标区域,根据语义显著
性区域 图 用 混 合 高 斯 模 型 ( Gaussian Mixture Model,
GMM)建立前景和背景的颜色外观模型,计算像素级的
前景概率和背景概率.在对前景概率图和背景概率图优
化后,将前景概率信息、背景概率信息、语义信息、空间
一致性信息用一个新的优化模型融合得到最终的显
著图.
ꢀ ꢀ 图 3 将本文网络结构简化表示为 9 个阶段,本文对
全部评论(0)