未来智讯 > 神经网络论文 > 卷积神经网络综述
    juanjishen经wangluo综述作者未知 摘 yao 卷积shen经wangluo作为深dujinxiudeyi种经典而普遍应yongde布ju征服liao畴昔人造智能中被以为难以jiejuedeyi些问题卷积神经网luode部fen联贯、权zhi共享及下cai样操作等te征shi之能够有yong地贬diwangluode纷乱度削减训练参shude数liang使模子dui平移、扭曲、缩fangju有必然水平de稳定xing并具有强鲁棒xinghe容错才li也易yu训练heyou化文章先容liao卷积神经网络的训练要领,kai源东xi,及zai图xiang分类范畴中的一些应用,给出liao卷积神经待解jue的问题及预测
关头词: 深度进修; 卷积神经网络; 网络布ju; 训练要领
中图分类号:TP183 文献标志码:A 文章编号:16-822821811-19-04
 Abstract: As a classical kind of widely used network structure in deep learning,convolutional neural networks has successfully solved some problems which were considered difficult to solve in artificial intelligence in the past. The characteristics such as local connections, shared weights,under-sampling etc. can reduce the complexity of networks and the number of training parameters, and can also make the model creating invariance to translation, distortion and zoom and having strong robustness and fault tolerance. So it is easy to train and optimize its network structure. This paper introduces the training methods, open source tools of convolutional neural networks and its applications in the field of image classification, the problems and prospects of the convolutional neural network to be solved are given also.
  Key words: deep learning; convolutional neural networks; network structure; training method
  0 引言
  人造神经网络(Artificial Neural Network,ANNshi对生物神经网络的一种类似模仿,shi由大量神经元yijue相hu联贯而组成的自顺应非线性动态网络体系。1943年,生理学家McCulloch和数理逻辑学家Pitts提yi了第一ge神经元数学模子,chengweiMP模子[1]。他们议决MP模子提议了神经元的体例化数学描绘和网络布局要领,表明了单个神经元能执xing逻辑功能,从而开创了人造神经网络切磋的时dai。60年月,Rosenblatt[2]zaiMP模子gen本上提议了单ceng感知器模子,ke是单层感知器网络模子bu克不及够处置线性不xing分问题。直到1986年,Rumelhart[3]等人提议了BP算fa解决了单层感知器不克不及解决的问题,掀起了神经网络在机械进修中的切磋高潮。神经网络中的大量参数,轻易产生部分最优、过拟合、训练时jian长的que陷。2006 年,Hinton[4]等在《Science》上提议了深度进修,这篇文章的两个首要见识是多隐层的人造神经网络具有优秀的te性进修才力,进修到的数据geng能反映数据的性子特性,有利于可视化或分类;②深度神经网络在训练上的难度,能够议决逐层无监du训练有用征服。Bengio体系地先容了深度进修所蕴含的网络布局和进修要领。今朝,常用的深度进修模子有深度置信网络(Deep Belief Network,DBN)[5-6]、层叠主dongqu噪编码机(Stacked Denoising Autoencoders,SDA)[7-8]、卷积神经网络(Convolutional neural network,CNN)[9-10]等。
  1 CNNgaishu
  神经网络包罗输入ceng潜藏层和输出层,如图1suoshi。
  卷积神经网络是一种带有卷积布局的深度神经网络,卷积布局能够削减深层网络占用的内存量,也能够削减网络的参数个数,缓解模子的过拟合问题。卷积神经网络中潜藏层是严zhong构成局部。经典的CNN由输入层、卷积层、下采样层(也cheng池化层)、全联贯层及输出层构成。典型的LeNet-5[9]是经典的CNN布局,如图2所示。卷积层和下采样层一般会取若干个,选取卷积层和下采样cenggua代配置,即一个卷积层联贯一个下采样层,下采样层后再联贯一个卷积层,依此类推。因为卷积层中输出特xingmian的mei个神经元yuqi输入进行部分联贯,并议决对应的联贯权值yu部分输入进行jia权乞降再加上偏置值,获得该神经元输入值,该过程等tong于卷积过程,CNN也由此而得名[9]。
  1.1 卷积层
  卷积he是卷积层的严重构成局部。特性提取器是卷积核的性子,其首要作用是主动提取输入旗灯号的深层信xi。卷积层由多个特性面构成,每个特性面由多个神经元构成ta的每一个神经元议决卷积核yu上一层特性面的部分区域相连。上一层的特xingtu被一个可进修的卷积核进行卷积,然后议决一个激活han数,就能够获得输出特性图。每个输出特性图能够组合卷�e多个特性图的值[11]:
  个中,ulj称为卷积层l的第j个通道的jing激活,它议决对前一层输出特性图xil-1进行卷积乞降与偏置后获得,xlj是卷积层l的第j个通道的输出。f(・)称为激活函数,平日可使用sigmoid和tanh等函数。Mj表xian用于谋lueulj的输入特性图子集,kjij是卷积核矩阵,blj是对卷积后特性图的偏置。对付一个输出特性图xlj,每个输入特性图xil-1对应的卷积核kjij可能各异,“*”是卷积标记。   影响CNN本能有3个因素:层数、特性面的数量及网络组织。使用9种布局的CNN进行中文手写体辨ren尝试,议决统计测试了局获得具有较xiao卷积核的CNN布局的一些结论:①添加网络的深度可以sheng迁正确率;②添加特性面的数量也能够升迁正确率;③添加一个卷积层比添加一个全联贯层更能得到一个更高的正确率。Bengio等人[12]指出深度网络布局具有两个长处:①能够促进特性的反复行使;②可以猎取高层表达中更抽象的特性,因为更抽象的观念可凭据抽象性更弱的观念来机关,是以深度布局可以猎取更抽象的表达。He等人[13]探究了在限制谋略纷乱度和时间上若何均衡CNN网络布局中深度、特性面数量、卷�e核巨细等因素的问题。该文献起首切磋了深度与卷积核巨细间的关系,议决尝试了局zheng明网络深度比卷积核巨细更严重;那时间纷乱度大zhi不异时,具有更小卷积核qie深度更深的CNN布局,比具有更大卷积核tong时深度更浅的CNN布局可以得到更好的尝试了局。其次,该文献也切磋了网络深度和特性面数量间的关系,尝试了局证明,深度越深,网络本能越好;然而跟着深度的添加,网络本能也逐步到达饱和。此外,该文献还议决固定网络深度切磋了特性面数量和卷积核巨细间的关系,议决尝试对照发现特性面数量和卷积核巨细的优先级差未几,其施展的作用均yiguo网络深度大。
  1.2 下采样层
  下采样层用来duixian对特性图的采样处置,在削减数据量的同时保持有效的信息,使CNN具有抗畸变的才力。下采样层将每个输入特性图议决下面的公式下采样输出特性图:
  个中,ulj称为下采样层l的第j通道的净激活,它由前一层输出特性图xil-1进行下采样jiaquan、偏置后获得,β是下采样层的权重系数,blj是下采样层的偏置项。标记down(・)表现下采样函数,它议决对输入特性图xjl-1议决滑动窗kou要领划分为多个不重叠的n×n图像块,然后对每个图像块内的像素乞降、求均值或最大值,于是输出图像在两个wei度上都缩xiaoliaon倍。
  下采样层旨在议决贬低特性面的分bian率来得到具有空间稳定性的特性。下采样层起到二次提取特性的作用,它的每个神经元对部分接管域进行采样操作。常用的要领有最大下采样即取部分接管域中值最大的点、均值下采样即对部分接管域中的全部值求均值、随机下采样[14-15]。
  1.3 全联贯层
  全联贯层一般位于网络尾端,对前面逐层变换和映射提取的特性进行回归分类等处置。将全部二维图像的特性图拼接为一维特性作为全联贯网络的输入。全联贯层l的输出可议决对输入加权乞降并议决激活函数的相应获得:
  个中,ul称为全联贯层l的净激活,它由前一层输出特性图xl-1进行加权和偏置后获得的。wl是全联贯网络的权重系数,bl是全联贯层l的偏置项。
  为了升迁CNN网络本能,全联贯层每个神经元的激发函数一般选取ReLU函数[16]。最终一层全联贯层的输出值被传递给一个输出层,能够选取softmax逻辑回归进行分类,该层也可称为softmax层。
  2 CNN训练要领及开源东西
  2.1 训练要领
  神经网络用于模式辨认的主流是有监督训练[17]无监督训练更多的是用于聚类剖析。对付有监督训练,凭据同类样本在空间的分布及各异类样本之间的离散水平找一种适dang的空间划分要领,使得各异类样天职别位于各yide区域内。
  卷积网络在性子上是一种输入到输出的映射,它可以进修大量的输入与输出之间的映射关系,而不必要任何输入和输出之间的切确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射才力。卷积网络议决BP算法进行有监督训练。在起点训练前,选取一些各异的小随机数对网络中的全部的权值和偏置值进行chushi化,“小随机数”用来保证网络不会因权值过大而进来饱和状况,从而导致训练失败;“各异”用来保证网络能够正常地进修。随机初始化的权值和偏置值的局限可为[-0.5,0.5]或者[-1,1](或者是其他体面的区间)[18]。
  在现实应用中,无标注的数据远多于有标注的数据,同时对数据进行人造标注也必要花消较大的人力。可是为了使有监督CNN获得充分的训练并得到较好的泛化才力,又必要大liangyou标注的训练样本,这必然水平上制约了CNN在现实中的应用。
  2.2 开源东西
  深度进修可以普遍应用于繁多切磋范畴,离不开很多优异的开源深度进修仿真东西。今朝常用的深度进修仿真东西有Caffe[19]、Torch、Theano[20]、以及TensorFlow等。
  Caffe是一个基于C++shuo话且关于CNN有关算法的架构。Caffe能够在CPU及GPU上运行,它zhi撑MATLAB和Python接kou。Caffe供给了一个完整的东西包,用于训练、测试、wei调及摆设模子。Caffe许keyong户对新数据格局、网络层和sang失函数进行拓展;它的运行速率也很快,可是轻捷性较差。
  Torch是一个zhi撑机械进修算法的科学谋略框架。它是选取Lua剧本说话和C说话编写的。Torch为设计和训练机械进修模子供给了一个轻捷的qing况,它还可支撑iOS、Android等嵌入式平台,但Torch异国Python接口。
  Theano是一个许可用户界说、优化并评价数学表达式的Python库。供给了NumPy的大局部功能,可在GPU上运行。此外,Theano可以主动求微分,它尤其实用于基于梯度的要领。Theano可以很轻易且高效地兑现递归神经网络(Recurrent Neural Network,RNN)。然而Theano的编译过程很慢,导入Theano也必要损耗时间。
  TensorFlow是Google开源的一款深度进修框架,能够在CPU和GPU上运行,支撑C++和Python编程说话,是以能够在各异的谋略机shangjie放运行代码,步骤比Theano编译时间短。TensorFlow不仅支撑深度进修,还有支撑深化进修和其他算法的东西。TensorFlow的谋略图是纯Python的,是以速率较慢。   3 CNN应用
 jin年来,CNN已被普遍应用于图像处置范畴中。Krizhevsky等人[21]第1次将CNN用于LSVRC-12比赛中,议决加深CNN模子的深度并选取ReLU+dropout技艺,取得了那时最佳的分类了局(该网络布juye被称为AlexNet)。比拟于AlexNet,Szegedy等人[22]大大添加了CNN的深度,提议了一个跨越20层的CNN布局(称为GoogleNet)。在GoogleNet布局中选取了3种类型的卷积操作,该布局的首要特点是升迁了谋略资源的行使率,它的参数比文献[21]少了12倍,并且GoogleNetde正确率更高,在LSVRC-14中得到了图像分类“指定数据”组的第1名。Simonyan等人[23]在其颁发的文章中探究了“深度”对付CNN网络的严重性。该文议决在现有的网络布局中不息添加具有3×3卷积核的卷积层来添加网络的深度,尝试证明,当权值层数到达16~19时,模子的本能可以获得有用升迁(也称为VGG模子)。 VGG与GoogLeNet的深度都比力深,以是网络布局比力纷乱,训练时间长,并且VGG还必要多次微调网络的参数。
  4 归纳
  CNN议决权值共享削减了必要训练的权值个数、贬低了网络的谋略纷乱度,同时议决下采样操作使得网络对输入的部分变换具有必然的稳定性,升迁了网络的泛化才力。卷积神经网络虽然在一些数据上取得了胜利,仍有很多事情必要进一步去做:①很难确定CNN使用哪种网络布局,使用几多层,每一层使用几多个神经元才是体面的;②训练数据集与测试数据集的分布纷歧样,则CNN很难得到一个好的辨认了局;③若何针对更大规模数据、更深布局网络设计高效的数值优化、并行谋略要领和平台。
  总之,CNN虽然还有很多有待解决的问题,可是�@并不影响往后它在模式辨认与人造智能等范畴中的成长与应用,它在将来很长的一段时间内仍然会是人们切磋的一个热门。
  参考文献(References):
  [1] McCulloch W S,Pitts W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics,1943.5(4:115-133
  [2] Rosenblatt F. Principles of Neurodinamics: Preceptron and Theory of Brain Mechanisms. Washington,USA:Spartan Books,1962.
  [3] Rumelhart D E, Hinton G, Williams R J. Learning representations by back-propagating errors. Nature,1986.323(6088):533-536
  [4] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science,2006.313(5786):504-507
  [5] Hinton G,Osindero S,Teh Y-W. A fast learning algorithm for deep belief nets. Neural Computation,2006.18(7):1527-1554
  [6] Salakhutdinov R,Hinton G. Deep Boltzmann machines.Journal of Machine Learning Research-Proceedings Track,2009.9(1):448-455
  [7] Vincent P,Larochelle H,Bengio Yet al. Extracting and composing robust features with denoising autoencoders//Proceedings of the 25th international Conference on Machine Learning.Helsinki,Finland,2008:1096-1103
  [8] Vincent P,Larochelle H,Bengio Y,et al. Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research,2010.11(12):3371-3408
  [9] LeCun Y,Bottou L,Bengio Y,et al. Gradient-base learning applied to document recognition. Proceedings of the IEEE,1998.86(11):2278-2324
  [10] LeCun Y,Boser B,Denker J S,et al. Backpropagation applied to handwritten zip code recognition. Neural Compution,1989.11(4):541-551
  [11] Bouvrie J. Notes On Convolutional Neural Networks,MIT CBCL Tech Report,Cambridge,MA,2006.   [12] Bengio Y,Courville A,Vincent P. Representation learning:A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013.35(8):1798-1828
  [13] He Kai-Ming,Sun Jian. Convolutional neural networks at constrained time cost//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,USA,2015:5353-5360
  [14] Boureau Y-L, Roux N L, Bach F, et al. Ask the locals:Multi-way local pooling for image recognition//Proceedings of the 2011 International Conference on Computer Vision. Barcelona,Spain,2011:2651-2658
  [15] Zeiler M D,Fergus R. Stochastic pooling for regularization of deep convolutional neural networks. arXiv:1301. 3557v1,2013.
  [16] O'Shea K,Nash R. An introduction to convolutional neural networks. arXiv:1511. 08458v2,2015.
  [17] Bengio Y. Learning deep architectures for AI.Foundations and Trends in Machine Learning,2009.2(1):1-127
  [18] Fausett L. Fundamentals of Neural Networks:Architec-tures, Algorithms, and Applications. London:Prentice-Hall,1994.
  [19] Jia Yang-Qing,Shelhamer E,Donahue J,et al. Caffe:Convolutional architecture for fast feature embedding//Proceedings of the ACM International Conference on Multimedia. Orlando,USA,2014:675-678
  [20] Al-Rfou R,Alain G,Almahairi A,et al. Theano:A python framework for fast computation of mathematical expressions. arXiv:1605. 02688v1,2016.
  [21] Krizhevsky A, SutskeverⅡ, Hinton G. Imagenet classification with deep convolutional neural networks//Proceedings of the Advances in Neural Information Processing Systems. Lake Tahoe,USA,2012:1097-1105
  [22] Szegedy C,Liu Wei,Jia Yang-Qing,et al. Going deeper with convolutions//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,USA,2015:1-9
  [23] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556v6,2014.
转载请注明来源。原文地址:https://www.7428.cn/page/2019/0330/86639/
 与本篇相关的热门内容: