推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

面向大规模图像分类的深度卷积神经网络优化

更新时间:2019-12-25 10:56:40 大小:748K 上传用户:守着阳光1985查看TA发布的资源 标签:深度卷积神经网络 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

在图像分类任务中,为了获得更高的分类精度,需要对图像提取不同层次的特征信息.深度学习被越来越多地应用于大规模图像分类任务中.提出了一种基于深度卷积神经网络的、可应用于大规模图像分类的深度学习框架.该框架在经典的深度卷积神经网络AlexNet基础上,分别从网络框架和网络内部结构两个方面对网络进行了优化和改进,进一步提升了网络的特征表达能力.同时,通过在全连接层引入隐层,使得网络能够同时具备学习图像特征和二值哈希的功能,从而使该框架具有处理大规模图像数据的能力.通过在3个标准数据库中的一系列比对实验,分析了不同优化方法在不同情况下的作用,并证明了所提优化方法的有效性.


部分文件列表

文件名 大小
面向大规模图像分类的深度卷积神经网络优化.pdf 748K

部分页面预览

(完整内容请下载后查看)
软件学报 ISSN 1000-9825, CODEN RUXUEW  
Journal of Software,2018,29(4):1029-1038 [doi: 10.13328/j.cnki.jos.005404]  
©中国科学院软件研究所版权所有.  
E-mail:  
Tel: +86-10-62562563  
面向大规模图像分类的深度卷积神经网络优化*  
,
,
陈佳楠  
,
,
陈胜勇  
(浙江工业大学 计算机科学与技术学院,浙江 杭州 310023)  
通讯作者: 白琮, E-mail:  
: 在图像分类任务中,为了获得更高的分类精度,需要对图像提取不同层次的特征信息.深度学习被越来越  
多地应用于大规模图像分类任务中.提出了一种基于深度卷积神经网络的应用于大规模图像分类的深度学习框  
.该框架在经典的深度卷积神经网络 AlexNet 基础上,分别从网络框架和网络内部结构两个方面对网络进行了优  
化和改进,进一步提升了网络的特征表达能力.同时,通过在全连接层引入隐层,使得网络能够同时具备学习图像特  
征和二值哈希的功能,从而使该框架具有处理大规模图像数据的能力.通过在 3 个标准数据库中的一系列比对实验,  
分析了不同优化方法在不同情况下的作用,并证明了所提优化方法的有效性.  
关键词: 图像分类;哈希编码;深度卷积神经网络;激活函数;池化  
中图法分类号: TP391  
中文引用格式: ,,佳楠,,胜勇.向大规模图像分类的深度卷积神经网络优化.件学报,2018,29(4):  
1029-
英文引用格式: Bai C, Huang L, Chen JN, Pan X, Chen SY. Optimization of deep convolutional neural network for large scale  
image classification. Ruan Jian Xue Bao/Journal of Software, 2018,29(4):1029-
5404.htm  
Optimization of Deep Convolutional Neural Network for Large Scale Image Classification  
BAI Cong, HUANG Ling, CHEN Jia-Nan, PAN Xiang, CHEN Sheng-Yong  
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)  
Abstract: Features from different levels should be extracted from images for more accurate image classification. Deep learning is used  
more and more in large scale image classification. This paper proposes a deep learning framework based on deep convolutional neural  
network that can be applied for the large scale image classification. The proposed framework has modified the framework and the internal  
structure of the classical deep convolutional neural network AlexNet to improve the feature representation ability of the network.  
Furthermore, this framework has the ability of learning image features and binary hash simultaneously by introducing the hidden layer in  
the full-connection layer. The proposal has been validated in showing significance improvement through the serial experiments in three  
commonly used databases. Lastly, different effects of different optimization methods are analyzed.  
Key words: image classification; hash coding; deep conventional neural network; activation function; pooling  
图像分类是指利用计算机的特征表达来模拟人类对图像的理解,自动地将图像按照人类能够理解的方式  
划分到不同的语义空间的技术,其在科学研究、医学应用和工业应用等方面都有广泛的用途.目前,对图像分类  
* 基金项目: 国家自然科学基金(61502424, U1509207, 61325019); 浙江省自然科学基金(LY15F020028, LY15F020024, LY18F  
020032)  
Foundation item: National Natural Science Foundation of China (61502424, U1509207, 61325019); Natural Science Foundation of  
Zhejiang Province, China (LY15F020028, LY15F020024, LY18F020032)  
本文由多媒体大数据处理与分析专题特约编辑赵耀教授、李波教授、华先胜研究员、文继荣教授、蒋刚毅教授、常冬霞副  
教授推荐.  
收稿时间: 2017-04-28; 修改时间: 2017-06-26; 采用时间: 2017-10-13; jos 在线出版时间: 2017-12-01  
CNKI 网络优先出版: 2017-12-04 06:46:49, http://kns.cnki.net/kcms/detail/11.2560.TP.20171204.0646.005.html  
1030  
Journal of Software 软件学报 Vol.29, No.4, April 2018  
的研究主要分为图像特征提取和分类算法研究两部分.尽管传统的图像分类方法,如基于支持向量机(SVM)分  
类器[1]和视觉词典模型(bag of visual word,简称 BoVW)[2]已在很多数据集上取得了不错的效果,但是仍然存在  
一个巨大的挑战,即由机器表达出来的底层图像特征和人类所感知的高层语义信息之间存在一个语义鸿沟”.  
在高层次的图像表达中,这个挑战可以被看成是目前研究的主要挑战,即构建一个能够模拟人类语义理解的计  
算机工具,而卷积神经网络的出现因其对高层语义特征的强大表达能力,正在试图解决人类与机器之间的语义  
鸿沟”.  
以卷积神经网络为代表的深度学习技术近些年来已在很多方面取得了重大突破,特别是在计算机视觉领  
,如图像分类[3]、目标识别[4]、图像检索[5],都取得了很好的效果.LeCun[6]首先成功地实现了采用有监督反  
向传播网络进行数字识别.8 层的深度卷积网络 AlexNet[3]ImageNet 大规模视觉识别挑战 2012(ILSVRC-  
2012)的分类任务中获得冠军.VGG[4]将卷积网络的深度提高到 19 ,并分别获得 ILSVRC-2014 的定位和分类  
的第 1 名和第 2 .GoogleNe[5]提出了 Inception 深层架构,构建了 22 层深层网络,获得了 ILSVRC-2014 的分类  
冠军.MSRA[7]通过研究线性整流函数,在性能上比 GoogleNet 有了 26%的提升.网络的深度对计算机视觉任务的  
性能有着很大的影响,但仅线性地增加网络深度会造成梯度消失,这不仅不会提升网络精度,还会降低网络的性  
.ResNet[8]引入了残差网络结构,在加深网络的同时解决了梯度消失的问题.在此基础上,Densnet[9]设计了一种  
新的深度网络架构改善梯度消失的问题:在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有  
网络层连接起来.但从另一个角度看,这些网络框架都是趋向于往更深层次的方向发展.网络越深,意味着需要  
训练的参数越多,需要的存储空间也会越大,计算花费的时间也会更多.这对于实际应用来讲,会存在一些问题.  
目前已有一些研究致力于降低网络运行的计算开销[10,11],常用的方法就是用一个预训练网络模型,在此基础上,  
用很少的参数在特定数据集上训练目标神经网络.同时,还有一些研究通过改善网络的结构,采用优化类别间相  
似性度量的算法来进行图像分类[12],也有研究针对多标签的图像分类,提出了输入输出更灵活的 HCP 网络[13]  
.
随着近些年网络上可获得的信息量的增大,在大数据集上进行图像信息计算不仅在时间开销上,在计算开  
销上也都是不乐观的.哈希算法因其在速度和存储方面存在的优势,近些年来被广泛地应用于大规模数据集的  
视觉任务中[14,15].目前,基于哈希的方法主要分为两大类:有监督哈希方法[16,17]和无监督哈希方法[18,19].其中,最  
具代表性的是局部感知哈希(local-sensitive hashing,简称 LSH)[16],使用随机映射使相似的数据匹配到相近的二  
进制编码的概率最大化.另一个具有代表性的方法是谱哈希(spectral hashing,简称 SH)[18],通过非线性函数沿着  
数据的主成分分析(principal component analysis,简称 PCA)方向设定阈值产生二进制编码.在卷积神经网络的  
基础上,文献[20]首先提出了一种监督哈希方法 CNNH CNNH+,该方法把训练数据成对的语义相似度矩阵因  
式分解成近似哈希编码,然后利用这些近似哈希编码和图像标签训练出网络模型,取得了不错的性能.文献[14]  
提出了一种简单、高效的深度学习框架,AlexNet 框架的基础上,提出隐层概念,能够同时学习图像特征表示  
和哈希函数,在图像检索性能上取得了卓越的表现.  
本文提出一种基于深度卷积神经网络 AlexNet 的二值哈希图像分类方法.采用有监督的学习方式同时学习  
不同层次的图像特征和哈希编码.在网络中采用扩大局部感受野和减小卷积滤波器尺寸的方法,获得了更具区  
分力和表达力的深层特征;然后,在全连接层中引进隐层并对隐层神经元用二值激活函数获得二值哈希编码,通  
过计算不同类别间的二值哈希编码的汉明距离对图像进行分类.相比于其他图像分类方法,本文提出的方法有  
以下特点.  
(1) 提出了一种简单、高效的有监督学习的图像分类框架,能在提高分类精度的同时降低计算开销;  
(2) 该框架在原有的 AlexNet 框架上进行了改进,在池化阶段采用最大-均值池化(max-ave pooling)方式,在  
扩大局部感受野的同时保留更精确的图像特征信息;  
(3) 在全连接层采用最大值(maxout)激活输出,使网络表达更精确的高维特征信息;  
(4) 通过在全连接层引入隐层来学习哈希编码,提高分类效率,使得网络能够同时学习图像特征表达和二  
值哈希编码,并可应用于大规模图像数据.  
实验结果表明,本文提出的优化方法可以明显地提升深度卷积神经网络在大规模图像分类任务上的性能,  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载