经典深度神经网络架构解析 - VGG，ResNet，Inception

作者&投稿：郸蓓（若有异议请与网页底部的电邮联系）

深度神经网络对于问题的抽象建立在我们可以通过合适的神经网络架构构造一个通用的函数逼近，使得我们可以从输入样本空间映射到目标样本空间。这一听起来简单的任务在实际构建过程中需要耗费大量的计算和时间以完成模型试验和迭代。而由于迁移学习的可行性，使得我们可以借助已有的在特定分类任务中表现出色的架构来完成类似甚至看起来完全不相关的任务。在学习的过程中，阅读了一些这些经典的网络架构的相关论文，在此做一个记录。

VGG Net 与之前的经典网络结构相比最突出的特征是大量的使用 3x3 （部分架构中还采用了 1x1 ）的小卷积核，并且采用 same padding 来维持卷积前后的 w 和 h，Feature map 的缩放完全交给 2x2 的 max pooling 层来完成，此后基本上所有的卷积神经网络的卷积核都采用 3x3 的尺寸。也正因为采用这个简单的、小的卷积核结构，才使得 VGG 成为同时代网络中最经典的深度神经网络。

在深度神经网络中采用小卷积核的原因：小卷积核通过多层叠加后可以在输入层取得与大卷积核同等规模的感受野，且由于网络层次的增加会同步增加网络的容量 model capacity 和复杂度 model complexity，进一步地，通过叠加多个层次的卷积核还可以减少模型的参数：例如对于通道数为 C 的输入和输出来说，采用 7x7 的卷积核需要的参数是 7x7xCxC = 49C² 个，而通过叠加 3 层 3x3 的卷积核所需要的参数数量为 3 x [3x3xCxC] = 27C² 个。

在 VGG 的架构中，作者采用 1x1 卷积的主要目的在于增加网络中的非线性，采用与原有输入特征相同通道数量的 1x1 的卷积结构，执行卷积前后不改变特征的表达的数量，但根据作者的经验在同等架构下带有 1x1 结构的网络表现不如 3x3 的网络，因此在后续广为沿用的 VGG 架构都是单纯的 3x3 网络。

一个值得注意的细节是，为了使得网络具有缩放不变性，作者在训练时先将全部图片缩放至 384x384 的尺寸，在此基础上随机裁剪 224x224 的图片区域作为网络的输入，最后再用经过在指定范围内进行尺寸缩放的图片进行微调。

另一个细节是作者在测试时采用了很多比较高明的技巧如 Ensemble 和 multi-crop 等方法使得测试的结果得到了一定的提升，不过这些提升一般只在竞赛中有意义，在真实的生产环境中应用很少。

ResNet 的提出是基于这样一个发现：直觉上深度神经网络应该的性能应该优于架构类似但相对层数更少的网络，但在实际情况中，随着网络层次的加深，梯度消失 Vanishing gradient 的影响愈加明显，网络的训练变得异常困难。这个现象在作者看来反应出了通过非线性激活的神经网络来构建近似恒等映射是困难的，那么我们可以反其道而行之，我们希望神经网络学习这个特定映射和恒等映射之间的差值，此时，由于给定了一个参考基准，使得整个学习的过程更加的容易，这个想法实在是精妙！

在此基础上 ResNet 网络的构建都是基于上图中基本单元构成的。

Inception 这个系列目前共有 5 篇文章，包括：

其中第一篇是对 Inception 架构的一个简单介绍，第二篇则是在改进 Inception 网络的过程中发现了 Batch Normalization 这一被后续广泛使用的提高网络稳健性的方法，第三篇 Rethinking the Inception Architecture for Computer Vision 这一篇相比前两篇论文信息量更大，作者给了很多构建深度卷积神经网络的建议，并且在这一篇中进一步改进了下图中第一版的 Inception Module，将 5x5 的卷积核改为两个 3x3 卷积层的叠加，这是一篇十分诚意的论文，值得反复阅读。

相比于 VGG Net，Inception 网络不再是基本的卷积神经网络的堆叠，取而代之的是对不同变体的 Inception Module 进行叠加。尽管从结构上 Inception 网络更加复杂，但由于大量的使用了 1x1 的卷积核，使得参数量居然比 VGG 还要小。

在此我们除了盲目复杂化网络以外，一个不可避免的问题是：为什么 Inception 网络会有更有的表现？

一种说法是我们在构建网络的过程中很难知道如何选择合适的卷积核，而 Inception Module 使得我们可以尝试多个不同的选择，让网络自己确定哪个方式更加合适。

另一种说法来自本系列的第 5 篇文章，keras 的作者 Francois Chollet 给出的解释是，在传统的卷积神经网络中，卷积核不仅需要在宽度和高度方向上建立特征识别能力，还要在深度（通道）方向上也构建这一能力。再一次地， 知识的表示形式决定了学习的难易程度 ，我们是否可以将这两个方向的特征识别分离开来，而简化这一任务？这就是 Inception 网路及后续在此基础上衍生出的 Xception 网络的核心思想。

深度学习之卷积神经网络经典模型
深度学习之卷积神经网络经典模型 LeNet-5模型在CNN的应用中,文字识别系统所用的LeNet-5模型是非常经典的模型。LeNet-5模型是1998年,YannLeCun教授提出的,它是第一个... LeNet-5模型在CNN的应用中,文字识别系统所用的LeNet-5模型是非常经典的模型。LeNet-5模型是1998年,Yann LeCun教授提出的,它是第一...

NVIDIA如何将RISC-V架构融入深度神经网络加速器?
NVIDIA对RISC-V架构的兴趣日益增长，将其视为深度神经网络加速器的有力选择。 RISC-V因其开放性，正逐渐吸引全球巨头的目光，包括Intel、三星和高通等都在积极投入研发。NVIDIA早早就加入了RISC-V基金会，并在近期展示了如何将这种架构应用到其DNN领域。NVIDIA强调，DNN的性能需求高、精度要求严，且对...

深度学习架构包括
9、SegNet SegNet是一个用于解决图像分割问题的深度学习架构。它包含处理层（编码器）序列，之后是对应的解码器序列，用于分类像素。10、GAN GAN是神经网络架构中完全不同的类别。GAN中，一种神经网络用于生成全新的、训练集中未曾有过的图像，但却足够真实。

DNN、RNN、CNN分别是什么意思?
DNN（深度神经网络），是深度学习的基础。DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准, 多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）。从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层...

CNN、RNN、DNN的内部网络结构有什么区别?
从广义上来说，NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。在实际应用中，所谓的深度神经网络DNN，往往融合了多种已知的结构，包括卷积层或是LSTM单元。但是就题主的意思来看，这里的DNN应该特指全连接的神经元结构，并不包含卷积单元或是时间上的关联。因此，题主一定要将DNN、...

“深度学习”和“多层神经网络”的区别
深度学习的网络结构是多层神经网络的一种。深度学习中最著名的卷积神经网络CNN，在原来多层神经网络的基础上，加入了特征学习部分，这部分是模仿人脑对信号处理上的分级的。广义上说深度学习的网络结构也是多层神经网络的一种。传统意义上的多层神经网络是只有输入层、隐藏层、输出层。其中隐藏层的层数根据...

简述神经网络的分类,试列举常用神经的类型。
神经网络是一种通用机器学习模型，是一套特定的算法集，在机器学习领域掀起了一场变革，本身就是普通函数的逼近，可以应用到任何机器学习输入到输出的复杂映射问题。一般来说，神经网络架构可分为3类：1、前馈神经网络：是最常见的类型，第一层为输入，最后一层为输出。如果有多个隐藏层，则称为“深度”...

深度神经网络是什么意思?
深度神经网络是机器学习(ML, Machine Learning)领域中一种技术。在监督学习中，以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本，那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本，在这种情况下，简单的模型，比如线性回归或者决策...

什么情况下神经网络模型被称为深度
这种深度不仅仅体现在层数的增加上，更重要的是，随着层数的增多，网络能够学习到的数据表示（或特征）层次也更为丰富和抽象。浅层的神经网络往往只能学习到较为简单的特征，而深层的网络则能够捕捉到更加复杂、高级的特征，从而在处理复杂任务时表现出更好的性能。因此，深度神经网络因其强大的特征提取和...

什么是深度神经网络
多层无监督神经网络。深度神经网络是一种多层无监督神经网络，可以将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。

五台县17030167274： 给别人宝宝送什么生日礼物一周岁 - ？
富仁芙瑞： 送古圣先贤的经典和经典读诵机.最经济、最有效的教育“读经一部,胜读杂书万本”!您的孩子读经了吗?如果读了,那么恭喜您,您很幸运!如果没有读,那么请让您的孩子尽快读经吧!!...

五台县17030167274： 现在有什么好听的舒情的英文歌曲?？
富仁芙瑞： 卑恋-Bada极海的另一边-婧寂寞在唱什么歌-Riyo放弃爱你-婧无名指的等待-小歆绝情歌-路绮欧清城-网络歌手(可能QQ音乐里的不提供)秋也-网络歌手(同上,网上有下载)我还依然爱着你-路绮欧永远在身边-大嘴巴飞上别人的床-CK怎么说-RIyo最后一刻才明白-网络歌手忧伤歌声-网络歌手悲伤.好听.非主流.90后最爱.个性.飘过.谢谢采纳

五台县17030167274： 如何重新转换为CoreStorage - ？
富仁芙瑞： Core Storage的逻辑结构,可以看出相比较一般的逻辑卷管理的“PV(物理卷)-VG(卷组)-LV(逻辑卷)”的三层结构,CoreStorage增加了一层,叫做LVF(逻辑卷族)-下图中紫色的,目前来说LVF的实际用途是锁定和加密,可能的功能...

五台县17030167274： 为什么物理液体压强跟什么有关? - ？
富仁芙瑞： 取一杯液体,杯底受到向下的压力F=mg=ρvg=ρShg s为杯底面积压力强度P=F/s=ρshg/s=ρgh,其中ρ为液体密度,g是常值,h为液体深度所以液体压强与液体密度和液体深度有关

五台县17030167274： 30、催化剂评价的指标有哪些? - ？
富仁芙瑞： 其中最主要的是动力学指标,对于固体催化剂还有宏观结构指标和微观结构指标. 催化剂性能的动力学表征衡量催化剂质量的最实用的三大指标,是由动力学方法测定的活性、选择性和稳定性. 活性活性活性活性催化剂提高化学反应速率的性...

五台县17030167274： 如图所示的三个高度相同的实心铁块放在水平桌面上,已知正方体铁块A最重,圆柱体铁块C的底面积最小.哪个 - ？
富仁芙瑞： (1)铁块放在水平桌面上,F=G,所以,p= F S = G S = mg S = ρVg S = ρShg S =ρgh,所以对桌面的压强大小的表达式为p=ρgh;由公式p=ρgh知,正方体、长方体、圆柱体铁块竖直放在水平桌面上,对桌面压强大小跟铁块的高度和密度有关,故猜想三正确. (2)取三块相同的海绵,轻轻将三个不同形状(正方体、长方体、圆柱体),但高度相同的铁块都竖直在海绵上,比较海绵凹陷的程度,可对猜想的正确性进行验证. 故答案为:(1)ρgh;三;(2)取三块相同的海绵,轻轻将三个不同形状(正方体、长方体、圆柱体),但高度相同的铁块都竖直在海绵上,比较海绵凹陷的程度,可对猜想的正确性进行验证.

五台县17030167274： 压强的计算云云 - ？
富仁芙瑞： ①压力=重力=ρVg=ρa*3g=0.5*10*3*0.2*3*9.8=39.2N p=F/S=F/a*2=39.2/0.2*2=980Pa②V排=F浮/(ρ海水·g)=G/(ρ海水·g)=9.27*10*6/(1.03*10*3·10)=900m*3

五台县17030167274： 有没有好理解的关于神经网络的书推荐 - ？
富仁芙瑞： 肯定是matlab用的神经网络设计了,通俗易懂,很多实例!!戴葵翻译的美国经典神经网络《神经网络设计》

五台县17030167274： canny算子边缘检测(canny算子边缘检测的步骤) ？
富仁芙瑞： 多条广告如下脚本只需引入一次边缘检测是图像处理的主要组成部分. 尽管基于卷积神经网络等基于深度学习的技术可以执行非常复杂的边缘检测(即具有变化的曲率,...

你可能想看的相关专题

星空见康网

经典深度神经网络架构解析 - VGG，ResNet，Inception

你可能想看的相关专题