导航:首页 > 网络问题 > 卷积神经网络为什么不能无限加深

卷积神经网络为什么不能无限加深

发布时间：2022-12-15 21:11:56

① 深度卷积网络

LeNet网络的结构如下图所示，可以看出，LeNet网络并没有使用padding，每进行一次卷积，图像的高度和宽度都会缩小，而通道数会一直增加。在全连接层中有400个节点，每个极点都有120个神经元，有时还会从这400个节点抽取一部分节点构建一个全连接层，即有两个全连接层。在该网络中，最后一步就是利用84个特征得到最后的输出，该网络刚开始使用的是 sigmoid 函数 tanh 函数，而现在常常倾向于使用 softmax 函数。需要注意的是，LeNet-5网络进行图像分类时，输入的图像是单通道的灰度图像。

AlexNet是以论文第一作者的名字命名的，该网络的结构，如下图所示，该网络的输出层使用了 softmax 函数。AlexNet网络比LeNet网络规模更大，大约有6000万个参数，用于训练图像和数据集时，能够处理非常相似的基本构造模块，这些模块中包含着大量的隐藏单元，并且与LeNet网络不同的是，该网络使用了ReLu的激活函数。

VGG-16网络没有太多的超参数，这是一种专注于构建卷积层的简单网络。如下图所示，该网络首先利用64个过滤器进行了两次卷积，接着在池化层将输入图像压缩，接着又是128个过滤器进行两次卷积，接着载池化。继续用256个过滤器进行3次卷积，再池化，接着再利用512个过滤器卷积3次，再池化，将稍后得到的特征图进行全连接操作，再进 softmax 激活。

由于存在梯度消失和梯度爆炸的原因，深层次的神经网络是很难训练的，如果采用一种跳跃连接的方式，即从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。这种利用跳跃连接构建的深度神经网络ResNets，深度能够超过100层

一个简单的两层神经网络示例，如下图所示：

常规的输出和输出之间的关系可以用如下的公式表示：

如上公式所述，这是一条神经网络的主路径。如果将的输入直接到深层的激活函数之前，此时，神经网络有了一条副路径，其对应输出将有公式（5）变成如下所示的公式（6）

此时的输入除了原先的输入外，多了一个项，即由于产生了一个残差块。

构建一个ResNet网络就是将很多这样的残差块堆积在一起，形成一个深度神经网络，如下所示：

使用传统的标准优化算法训练一个网络，随着网络深度的增加，训练误差会先减小再增加，随着网络层数的增加，优化算法会越难以训练，训练误差也会越来越多。但是，使用ResNet网络，能够有效地避免这种情况。

如上所述，加入残差网络之后，其输出计算公式如公式（6）所示，展开这个公式，则有：

如果使用L2正则化或者权重衰减，则会压缩权重参数的值，如果参数和参数等于0，其输出将由公式（7）变成，假定使用ReLU激活函数，则有：

由于残差网络存在的这种跳跃连接，很容易得出以上等式，这意味着，即使给神经网络增加两层，但是其效率并不逊色与更简单的神经网络。并且由于存在以上恒等式，使得网络学习隐藏层的单元的信息更加容易。而普通网络，随着网络层数的增加，学习参数会变得很困难。

此外，关于残差网络，如公式（6）所示，假设与具有相同的维度，由于ResNets使用了许多same卷积，的维度等于输出层的维度。如果输入和输出具有不同的维度，可以再增加一个矩阵，使得和具有相同的维度。而的维度可以通过0值填充调节。

在卷积网络的架构设计中，一种有趣的想法是会使用到1×1的过滤矩阵，实际上，对于单通道的图像而言，1×1的过滤矩阵，意义不大，但是，对于多通道的图像而言，1×1的过滤矩阵能够有效减少图像卷积之后的通道数量。

根据卷积和池化的基本知识，随着神经网络层数的增加，图像的通道数量会逐渐增加，采用1×1的过滤矩阵卷积之后，可以有效减少图像的通道数量，一个简单的示例，如下所示：

假设有一个6×6×32的图片，使用1×1×32的过滤矩阵进行卷积运算，整个运算过程将会遍历36个单元格，并计算过滤矩阵所覆盖区域的元素积之和，将其应用到ReLu非线性函数，会得到一个输出值。此计算过程中，可能会用到多个1×1×32的过滤器，那么，通过以上计算会得到一个 6×6×过滤器数量的矩阵。

构建卷积神经网络时，有时会很难决定过滤器的大小，而Inception网络的引入，却能很好的解决这个问题。

Inception网络的作用就是代替人工确定选择卷积层的过滤器类型。如下图所示，对于一个多通道图像，可以使用不同的过滤矩阵或者池化层，得到不同的输出，将这些输出堆积起来。

有了如上图所示的Inception块，最终输出为32+32+64+128=256，而Inception模块的输入为28×28×192，其整个计算成本，以5×5的过滤矩阵为例，其乘法的计算次数为：28×28×32×5×5×192，整个计算次数超过了1.2亿次。而如果使用如下所示的优化计算方法，则可以有效减少计算量。

如果利用1×1的过滤器，将输入矩阵的通道减少至16，则可以有效减少计算量，如下所示：

如上图所示的价格中，整个网络的运算次数为：28×28×192×16+28×28×32×5×5×16=1240万，整个计算成本降低至原来的十分之一。而，通过1×1×192过滤器卷积得到的这个网络层被称之为瓶颈层。

如上，所示，可以给每一个非1×1的卷积层之前，加入一个1×1的瓶颈层，就可以构建一个基本的inception模块了，如下图所示：

而一个inception网络就是多个Inception模块连接起来，如下图所示：

事实上，以上网络中，还存在一些分支，如编号1所示，这些分支就是全连接层，而全连接层之后就是一个softmax层用于预测。又如分支2所示，包含一些隐藏层（编号3），通过全连接层和softmax进行预测。这些分支结构能够确保，即使是隐藏层和中间层也参与了特征计算，并且也能够预测图片的分类。这种做法能够有效避免网络过拟合。

对于计算机视觉领域而言，神经网络的训练可能需要大量的数据，但是当数据量有限时，可以通过数据增强来实现数据量的扩充，以提高系统的鲁棒性，具体的数据增强方法如下所示：

除了以上三种数据增强的方法外，更多的数据增强方法和实现可以参考图像数据增强

数据增强可以利用计算机多线程实现，一个线程用来实现加载数据，实现数据增强，其他线程可以训练这些数据以加快整体的运算速度。

② 深度学习之卷积神经网络经典模型

LeNet-5模型在CNN的应用中，文字识别系统所用的LeNet-5模型是非常经典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一个成功大规模应用在手写数字识别问题的卷积神经网络，在MNIST数据集中的正确率可以高达99.2%。

下面详细介绍一下LeNet-5模型工作的原理。
LeNet-5模型一共有7层，每层包含众多参数，也就是卷积神经网络中的参数。虽然层数只有7层，这在如今庞大的神经网络中可是说是非常少的了，但是包含了卷积层，池化层，全连接层，可谓麻雀虽小五脏俱全了。为了方便，我们把卷积层称为C层，下采样层叫做下采样层。
首先，输入层输入原始图像，原始图像被处理成32×32个像素点的值。然后，后面的隐层计在卷积和子抽样之间交替进行。C1层是卷积层，包含了六个特征图。每个映射也就是28x28个神经元。卷积核可以是5x5的十字形，这28×28个神经元共享卷积核权值参数，通过卷积运算，原始信号特征增强，同时也降低了噪声，当卷积核不同时，提取到图像中的特征不同；C2层是一个池化层，池化层的功能在上文已经介绍过了，它将局部像素值平均化来实现子抽样。
池化层包含了六个特征映射，每个映射的像素值为14x14，这样的池化层非常重要，可以在一定程度上保证网络的特征被提取，同时运算量也大大降低，减少了网络结构过拟合的风险。因为卷积层与池化层是交替出现的，所以隐藏层的第三层又是一个卷积层，第二个卷积层由16个特征映射构成，每个特征映射用于加权和计算的卷积核为10x10的。第四个隐藏层，也就是第二个池化层同样包含16个特征映射，每个特征映射中所用的卷积核是5x5的。第五个隐藏层是用5x5的卷积核进行运算，包含了120个神经元，也是这个网络中卷积运算的最后一层。
之后的第六层便是全连接层，包含了84个特征图。全连接层中对输入进行点积之后加入偏置，然后经过一个激活函数传输给输出层的神经元。最后一层，也就是第七层，为了得到输出向量，设置了十个神经元来进行分类，相当于输出一个包含十个元素的一维数组，向量中的十个元素即0到9。
AlexNet模型
AlexNet简介
2012年Imagenet图像识别大赛中，Alext提出的alexnet网络模型一鸣惊人，引爆了神经网络的应用热潮，并且赢得了2012届图像识别大赛的冠军，这也使得卷积神经网络真正意义上成为图像处理上的核心算法。上文介绍的LeNet-5出现在上个世纪，虽然是经典，但是迫于种种复杂的现实场景限制，只能在一些领域应用。不过，随着SVM等手工设计的特征的飞速发展，LeNet-5并没有形成很大的应用状况。随着ReLU与dropout的提出，以及GPU带来算力突破和互联网时代大数据的爆发，卷积神经网络带来历史的突破，AlexNet的提出让深度学习走上人工智能的最前端。
图像预处理
AlexNet的训练数据采用ImageNet的子集中的ILSVRC2010数据集，包含了1000类，共1.2百万的训练图像，50000张验证集，150000张测试集。在进行网络训练之前我们要对数据集图片进行预处理。首先我们要将不同分辨率的图片全部变成256x256规格的图像，变换方法是将图片的短边缩放到 256像素值，然后截取长边的中间位置的256个像素值，得到256x256大小的图像。除了对图片大小进行预处理，还需要对图片减均值，一般图像均是由RGB三原色构成，均值按RGB三分量分别求得，由此可以更加突出图片的特征，更方便后面的计算。
此外，对了保证训练的效果，我们仍需对训练数据进行更为严苛的处理。在256x256大小的图像中，截取227x227大小的图像，在此之后对图片取镜像，这样就使得原始数据增加了（256-224）x（256-224）x2= 2048倍。最后对RGB空间做PCA，然后对主成分做（0,0.1）的高斯扰动，结果使错误率下降1%。对测试数据而言，抽取以图像4个角落的大小为224224的图像，中心的224224大小的图像以及它们的镜像翻转图像，这样便可以获得10张图像，我们便可以利用softmax进行预测，对所有预测取平均作为最终的分类结果。
ReLU激活函数
之前我们提到常用的非线性的激活函数是sigmoid，它能够把输入的连续实值全部确定在0和1之间。但是这带来一个问题，当一个负数的绝对值很大时，那么输出就是0；如果是绝对值非常大的正数，输出就是1。这就会出现饱和的现象，饱和现象中神经元的梯度会变得特别小，这样必然会使得网络的学习更加困难。此外，sigmoid的output的值并不是0为均值，因为这会导致上一层输出的非0均值信号会直接输入到后一层的神经元上。所以AlexNet模型提出了ReLU函数，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid快很多，这成了AlexNet模型的优势之一。
Dropout
AlexNet模型提出了一个有效的模型组合方式，相比于单模型，只需要多花费一倍的时间，这种方式就做Dropout。在整个神经网络中，随机选取一半的神经元将它们的输出变成0。这种方式使得网络关闭了部分神经元，减少了过拟合现象。同时训练的迭代次数也得以增加。当时一个GTX580 GPU只有3GB内存，这使得大规模的运算成为不可能。但是，随着硬件水平的发展，当时的GPU已经可以实现并行计算了，并行计算之后两块GPU可以互相通信传输数据，这样的方式充分利用了GPU资源，所以模型设计利用两个GPU并行运算，大大提高了运算效率。
模型分析

AlexNet模型共有8层结构，其中前5层为卷积层，其中前两个卷积层和第五个卷积层有池化层，其他卷积层没有。后面3层为全连接层，神经元约有六十五万个，所需要训练的参数约六千万个。
图片预处理过后，进过第一个卷积层C1之后，原始的图像也就变成了55x55的像素大小，此时一共有96个通道。模型分为上下两块是为了方便GPU运算，48作为通道数目更加适合GPU的并行运算。上图的模型里把48层直接变成了一个面，这使得模型看上去更像一个立方体，大小为55x55x48。在后面的第二个卷积层C2中，卷积核的尺寸为5x5x48，由此再次进行卷积运算。在C1，C2卷积层的卷积运算之后，都会有一个池化层，使得提取特征之后的特征图像素值大大减小，方便了运算，也使得特征更加明显。而第三层的卷积层C3又是更加特殊了。第三层卷积层做了通道的合并，将之前两个通道的数据再次合并起来，这是一种串接操作。第三层后，由于串接，通道数变成256。全卷积的卷积核尺寸也就变成了13×13×25613×13×256。一个有4096个这样尺寸的卷积核分别对输入图像做4096次的全卷积操作，最后的结果就是一个列向量，一共有4096个数。这也就是最后的输出，但是AlexNet最终是要分1000个类，所以通过第八层，也就是全连接的第三层，由此得到1000个类输出。
Alexnet网络中各个层发挥了不同的作用，ReLU，多个CPU是为了提高训练速度，重叠pool池化是为了提高精度，且不容易产生过拟合，局部归一化响应是为了提高精度，而数据增益与dropout是为了减少过拟合。
VGG net
在ILSVRC-2014中，牛津大学的视觉几何组提出的VGGNet模型在定位任务第一名和分类任务第一名[[i]]。如今在计算机视觉领域，卷积神经网络的良好效果深得广大开发者的喜欢，并且上文提到的AlexNet模型拥有更好的效果，所以广大从业者学习者试图将其改进以获得更好地效果。而后来很多人经过验证认为，AlexNet模型中所谓的局部归一化响应浪费了计算资源，但是对性能却没有很大的提升。VGG的实质是AlexNet结构的增强版，它侧重强调卷积神经网络设计中的深度。将卷积层的深度提升到了19层，并且在当年的ImageNet大赛中的定位问题中获得了第一名的好成绩。整个网络向人们证明了我们是可以用很小的卷积核取得很好地效果，前提是我们要把网络的层数加深，这也论证了我们要想提高整个神经网络的模型效果，一个较为有效的方法便是将它的深度加深，虽然计算量会大大提高，但是整个复杂度也上升了，更能解决复杂的问题。虽然VGG网络已经诞生好几年了，但是很多其他网络上效果并不是很好地情况下，VGG有时候还能够发挥它的优势，让人有意想不到的收获。

与AlexNet网络非常类似，VGG共有五个卷积层，并且每个卷积层之后都有一个池化层。当时在ImageNet大赛中，作者分别尝试了六种网络结构。这六种结构大致相同，只是层数不同，少则11层，多达19层。网络结构的输入是大小为224*224的RGB图像，最终将分类结果输出。当然，在输入网络时，图片要进行预处理。
VGG网络相比AlexNet网络，在网络的深度以及宽度上做了一定的拓展，具体的卷积运算还是与AlexNet网络类似。我们主要说明一下VGG网络所做的改进。第一点，由于很多研究者发现归一化层的效果并不是很好，而且占用了大量的计算资源，所以在VGG网络中作者取消了归一化层；第二点，VGG网络用了更小的3x3的卷积核，而两个连续的3x3的卷积核相当于5x5的感受野，由此类推，三个3x3的连续的卷积核也就相当于7x7的感受野。这样的变化使得参数量更小，节省了计算资源，将资源留给后面的更深层次的网络。第三点是VGG网络中的池化层特征池化核改为了2x2，而在AlexNet网络中池化核为3x3。这三点改进无疑是使得整个参数运算量下降，这样我们在有限的计算平台上能够获得更多的资源留给更深层的网络。由于层数较多，卷积核比较小，这样使得整个网络的特征提取效果很好。其实由于VGG的层数较多，所以计算量还是相当大的，卷积层比较多成了它最显着的特点。另外，VGG网络的拓展性能比较突出，结构比较简洁，所以它的迁移性能比较好，迁移到其他数据集的时候泛化性能好。到现在为止，VGG网络还经常被用来提出特征。所以当现在很多较新的模型效果不好时，使用VGG可能会解决这些问题。
GoogleNet
谷歌于2014年Imagenet挑战赛（ILSVRC14）凭借GoogleNet再次斩获第一名。这个通过增加了神经网络的深度和宽度获得了更好地效果，在此过程中保证了计算资源的不变。这个网络论证了加大深度，宽度以及训练数据的增加是现有深度学习获得更好效果的主要方式。但是增加尺寸可能会带来过拟合的问题，因为深度与宽度的加深必然会带来过量的参数。此外，增加网络尺寸也带来了对计算资源侵占过多的缺点。为了保证计算资源充分利用的前提下去提高整个模型的性能，作者使用了Inception模型，这个模型在下图中有展示，可以看出这个有点像金字塔的模型在宽度上使用并联的不同大小的卷积核，增加了卷积核的输出宽度。因为使用了较大尺度的卷积核增加了参数。使用了1*1的卷积核就是为了使得参数的数量最少。

Inception模块
上图表格为网络分析图，第一行为卷积层，输入为224×224×3 ，卷积核为7x7，步长为2，padding为3，输出的维度为112×112×64，这里面的7x7卷积使用了 7×1 然后 1×7 的方式，这样便有(7+7)×64×3=2,688个参数。第二行为池化层，卷积核为3×33×3，滑动步长为2，padding为 1 ，输出维度：56×56×64，计算方式：1/2×(112+2×1?3+1)=56。第三行，第四行与第一行，第二行类似。第 5 行 Inception mole中分为4条支线，输入均为上层产生的 28×28×192 结果：第 1 部分，1×1 卷积层，输出大小为28×28×64；第 2 部分，先1×1卷积层，输出大小为28×28×96，作为输入进行3×3卷积层，输出大小为28×28×128；第 3部分，先1×1卷积层，输出大小为28×28×32，作为输入进行3×3卷积层，输出大小为28×28×32；而第3 部分3×3的池化层，输出大小为输出大小为28×28×32。第5行的Inception mole会对上面是个结果的输出结果并联，由此增加网络宽度。
ResNet
2015年ImageNet大赛中，MSRA何凯明团队的ResialNetworks力压群雄，在ImageNet的诸多领域的比赛中上均获得了第一名的好成绩，而且这篇关于ResNet的论文Deep Resial Learning for Image Recognition也获得了CVPR2016的最佳论文，实至而名归。
上文介绍了的VGG以及GoogleNet都是增加了卷积神经网络的深度来获得更好效果，也让人们明白了网络的深度与广度决定了训练的效果。但是，与此同时，宽度与深度加深的同时，效果实际会慢慢变差。也就是说模型的层次加深，错误率提高了。模型的深度加深，以一定的错误率来换取学习能力的增强。但是深层的神经网络模型牺牲了大量的计算资源，学习能力提高的同时不应当产生比浅层神经网络更高的错误率。这个现象的产生主要是因为随着神经网络的层数增加，梯度消失的现象就越来越明显。所以为了解决这个问题，作者提出了一个深度残差网络的结构Resial：

上图就是残差网络的基本结构，可以看出其实是增加了一个恒等映射，将原本的变换函数H(x)转换成了F(x)+x。示意图中可以很明显看出来整个网络的变化，这样网络不再是简单的堆叠结构，这样的话便很好地解决了由于网络层数增加而带来的梯度原来越不明显的问题。所以这时候网络可以做得很深，到目前为止，网络的层数都可以上千层，而能够保证很好地效果。并且，这样的简单叠加并没有给网络增加额外的参数跟计算量，同时也提高了网络训练的效果与效率。
在比赛中，为了证明自己观点是正确的，作者控制变量地设计几个实验。首先作者构建了两个plain网络，这两个网络分别为18层跟34层，随后作者又设计了两个残差网络，层数也是分别为18层和34层。然后对这四个模型进行控制变量的实验观察数据量的变化。下图便是实验结果。实验中，在plain网络上观测到明显的退化现象。实验结果也表明，在残差网络上，34层的效果明显要好于18层的效果，足以证明残差网络随着层数增加性能也是增加的。不仅如此，残差网络的在更深层的结构上收敛性能也有明显的提升，整个实验大为成功。

除此之外，作者还做了关于shortcut方式的实验，如果残差网络模块的输入输出维度不一致，我们如果要使维度统一，必须要对维数较少的进行増维。而增维的最好效果是用0来填充。不过实验数据显示三者差距很小，所以线性投影并不是特别需要。使用0来填充维度同时也保证了模型的复杂度控制在比较低的情况下。
随着实验的深入，作者又提出了更深的残差模块。这种模型减少了各个层的参数量，将资源留给更深层数的模型，在保证复杂度很低的情况下，模型也没有出现梯度消失很明显的情况，因此目前模型最高可达1202层，错误率仍然控制得很低。但是层数如此之多也带来了过拟合的现象，不过诸多研究者仍在改进之中，毕竟此时的ResNet已经相对于其他模型在性能上遥遥领先了。
残差网络的精髓便是shortcut。从一个角度来看，也可以解读为多种路径组合的一个网络。如下图：

ResNet可以做到很深，但是从上图中可以体会到，当网络很深，也就是层数很多时，数据传输的路径其实相对比较固定。我们似乎也可以将其理解为一个多人投票系统，大多数梯度都分布在论文中所谓的effective path上。
DenseNet
在Resnet模型之后，有人试图对ResNet模型进行改进，由此便诞生了ResNeXt模型。

这是对上面介绍的ResNet模型结合了GoogleNet中的inception模块思想，相比于Resnet来说更加有效。随后，诞生了DenseNet模型，它直接将所有的模块连接起来，整个模型更加简单粗暴。稠密相连成了它的主要特点。

我们将DenseNet与ResNet相比较:

从上图中可以看出，相比于ResNet，DenseNet参数量明显减少很多，效果也更加优越，只是DenseNet需要消耗更多的内存。
总结
上面介绍了卷积神经网络发展史上比较着名的一些模型，这些模型非常经典，也各有优势。在算力不断增强的现在，各种新的网络训练的效率以及效果也在逐渐提高。从收敛速度上看，VGG>Inception>DenseNet>ResNet,从泛化能力来看，Inception>DenseNet=ResNet>VGG，从运算量看来，Inception<DenseNet< ResNet<VGG，从内存开销来看，Inception<ResNet< DenseNet<VGG。在本次研究中，我们对各个模型均进行了分析，但从效果来看，ResNet效果是最好的，优于Inception，优于VGG，所以我们第四章实验中主要采用谷歌的Inception模型，也就是GoogleNet。

③ 如何更好的理解分析深度卷积神经网络

用局部连接而不是全连接，同时权值共享。

局部连接的概念参考局部感受域，即某个视神经元仅考虑某一个小区域的视觉输入，因此相比普通神经网络的全连接层（下一层的某一个神经元需要与前一层的所有节点连接），卷积网络的某一个卷积层的所有节点只负责前层输入的某一个区域（比如某个3*3的方块）。这样一来需要训练的权值数相比全连接而言会大大减少，进而减小对样本空间大小的需求。

权值共享的概念就是，某一隐藏层的所有神经元共用一组权值。

这两个概念对应卷积层的话，恰好就是某个固定的卷积核。卷积核在图像上滑动时每处在一个位置分别对应一个“局部连接”的神经元，同时因为“权值共享”的缘故，这些神经元的参数一致，正好对应同一个卷积核。

顺便补充下，不同卷积核对应不同的特征，比如不同方向的边（edge）就会分别对应不同的卷积核。

激活函数f(x)用ReLU的话避免了x过大梯度趋于0（比如用sigmoid）而影响训练的权值的情况（即GradientVanishing）。同时结果会更稀疏一些。
池化之后（例如保留邻域内最大或采纳平均以舍弃一些信息）一定程度也压制了过拟合的情况。

综述

总体来说就是重复卷积-relu来提取特征，进行池化之后再作更深层的特征提取，实质上深层卷积网络的主要作用在于特征提取。最后一层直接用softmax来分类（获得一个介于0~1的值表达输入属于这一类别的概率）。

④ 【阅读笔记】改进卷积神经网络的14个小技巧

原文： https://mp.weixin.qq.com/s/Lh_lJNvV9BGhc6no2ln-_g

原题目误导性太大

1）架构要遵循应用

你也许会被 Google Brain 或者 DeepMind 这些奇特的实验室所发明的那些耀眼的新模型所吸引，但是其中许多在你的用例或者业务环境中要么是不可能实现，要么是实现起来非常不现实。你应该使用对你的特定应用最有意义的模型，这种模型或许比较简单，但是仍然很强大，例如 VGG。

2）网络路径的激增

每年的 ImageNet Challenge 的冠军都会使用比上一届冠军更加深层的网络。从 AlexNet 到 Inception，再到 ResNet，Smith 注意到了“网络中路径数量倍增”的趋势，并且“ResNet 可以是不同长度的网络的指数集合”。

3）争取简单

然而，更大的并不一定是更好的。在名为“Bigger is not necessarily better”的论文中，Springenberg 等人演示了如何用更少的单元实现最先进的结果。参考：https://arxiv.org/pdf/1412.6806.pdf

4）增加对称性

无论是在建筑上，还是在生物上，对称性被认为是质量和工艺的标志。Smith 将 FractalNet 的优雅归功于网络的对称性。

5）金字塔式的形状

你也许经常在表征能力和减少冗余或者无用信息之间权衡。卷积神经网络通常会降低激活函数的采样，并会增加从输入层到最终层之间的连接通道。

6）过度训练

另一个权衡是训练准确度和泛化能力。用类似 drop-out 或者 drop-path 的方法进行正则化可以提高泛化能力，这是神经网络的重要优势。请在比你的实际用例更加苛刻的问题下训练你的网络，以提高泛化性能。

7）全面覆盖问题空间

为了扩展你的训练数据和提升泛化能力，请使用噪声和数据增强，例如随机旋转、裁剪和一些图像操作。

8）递增的特征构造

随着网络结构越来越成功，它们进一部简化了每一层的“工作”。在非常深层的神经网络中，每一层仅仅会递增的修改输入。在 ResNets 中，每一层的输出和它的输入时很相似的，这意味着将两层加起来就是递增。实践中，请在 ResNet 中使用较短的跳变长度。

9）标准化层的输入

标准化是另一个可以使计算层的工作变得更加容易的方法，在实践中被证明可以提升训练和准确率。批量标准化（batch normalization）的发明者认为原因在于处理内部的协变量，但是 Smith 认为，“标准化把所有层的输入样本放在了一个平等的基础上（类似于一种单位转换），这允许反向传播可以更有效地训练”。

10）输入变换

研究表明，在 Wide ResNets 中，性能会随着连接通道的增加而增强，但是你需要权衡训练代价与准确度。AlexNet、VGG、Inception 和 ResNets 都在第一层使用了输入变换以让输入数据能够以多种方式被检查。

11）可用的资源决指引着层的宽度

然而，可供选择的输出数量并不是显而易见的，这依赖于你的硬件能力以及期望的准确度。

12）Summation Joining

Summation 是一种常用的合并分支的方式。在 ResNets 中，使用总和作为连接的机制可以让每一个分支都能计算残差和整体近似。如果输入跳跃连接一直存在，那么 summation 会让每一层学到正确地东西（例如与输入的差别）。在任何分支都可以被丢弃的网络（例如 FractalNet）中，你应该使用这种方式类保持输出的平滑。

13）下采样变换

在池化的时候，利用级联连接（concatenation joining）来增加输出的数量。当使用大于 1 的步长时，这会同时处理连接并增加连接通道的数量。

14）用于竞争的 Maxout

Maxout 被用在你只需要选择一个激活函数的局部竞争网络中。使用求和以及平均值会包含所有的激活函数，所以不同之处在于 maxout 只选择一个“胜出者”。Maxout 的一个明显的用例是每个分支具有不同大小的内核，而 Maxout 可以包含尺度不变性。

1）使用调优过的预训练网络

“如果你的视觉数据和 ImageNet 相似，那么使用预训练网络会帮助你学习得更快”，机器学习公司 Diffbot 的 CEO Mike Tung 解释说。低水平的卷积神经网络通常可以被重复使用，因为它们大多能够检测到像线条以及边缘这些模式。将分类层用你自己的层替换，并且用你特定的数据去训练最后的几个层。

2）使用 freeze-drop-path

Drop-path 会在训练的迭代过程中随机地删除一些分支。Smith 测试了一种相反的方法，它被称为 freeze-path，就是一些路径的权重是固定的、不可训练的，而不是整体删除。因为下一个分支比以前的分支包含更多的层，并且正确的内容更加容易近似得到，所以网络应该会得到更好的准确度。

3）使用循环的学习率

关于学习率的实验会消耗大量的时间，并且会让你遇到错误。自适应学习率在计算上可能是非常昂贵的，但是循环学习率不会这样。使用循环学习率（CLR）时，你可以设置一组最大最小边界，在边界范围内改变学习率。Smith 甚至还在论文《Cyclical Learning Rates for Training Neural Networks》中提供了计算学习率的最大值和最小值的方法。参考：https://arxiv.org/pdf/1506.01186.pdf

4）在有噪声的标签中使用 bootstrapping

在现实中，很多数据都是混乱的，标签都是主观性的或者是缺失的，而且预测的对象可能是训练的时候未曾遇到过的。Reed 等人在文章《TRAINING DEEP NEURAL NETWORKS ON NOISY LABELS WITH BOOTSTRAPPING》中描述了一种给网络预测目标注入一致性的方法。直观地讲，这可以奏效，通过使网络利用对环境的已知表示（隐含在参数中）来过滤可能具有不一致的训练标签的输入数据，并在训练时清理该数据。参考：https://arxiv.org/pdf/1412.6596

5）采用有 Maxout 的 ELU，而不是 ReLU

ELU 是 ReLU 的一个相对平滑的版本，它能加速收敛并提高准确度。与 ReLU 不同，ELU 拥有负值，允许它们以更低的计算复杂度将平均单位激活推向更加接近 0 的值，就像批量标准化一样参考论文《FAST AND ACCURATE DEEP NETWORK LEARNING BY EXPONENTIAL LINEAR UNITS (ELUS)》，https://arxiv.org/pdf/1511.07289.pdf。如果您使用具有全连接层的 Maxout，它们是特别有效的。

⑤ 卷积神经网络CNN(Convolutional Neural Network)

上图计算过程为，首先我们可以将右边进行卷积的可以称为过滤器也可以叫做核，覆盖到左边第一个区域，然后分别按照对应位置相乘再相加，3*1+1*1+2*1+0*0+0*0+0*0+1*(-1)+8*(-1)+2*(-1)=-5;
按照上述的计算方法逐步按右移一个步长（步长可以设定为1,2，...等），然后按往下移，逐渐计算相应的值，得出最终的值。

如上图显示，对于第一个图像矩阵对应的图，一边是白色，一边是黑色，那么中间就会存在一个垂直的边缘，我们可以选择一个垂直边缘检测过滤器，如乘法右边的矩阵，那么两者做卷积后得出的图会显示如等号右边的结果矩阵对应的灰度图中间会有一个白色的中间带，也就是检测出来的边缘，那为什么感觉中间边缘带会比较宽呢？而不是很细的一个局域呢？原因是我们输入的图像只有6*6，过于小了，如果我们选择输出更大的尺寸的图，那么结果来说就是相对的一个细的边缘检测带，也就将我们的垂直边缘特征提取出来了。
上述都是人工选择过滤器的参数，随着神经网络的发展我们可以利用反向传播算法来学习过滤器的参数

我们可以将卷积的顾虑器的数值变成一个参数，通过反向传播算法去学习，这样学到的过滤器或者说卷积核就能够识别到很多的特征，而不是依靠手工选择过滤器。

- padding 操作，卷积经常会出现两个问题：
1.每经过一次卷积图像都会缩小，如果卷积层很多的话，后面的图像就缩的很小了；
2.边缘像素利用次数只有一次，很明显少于位于中间的像素，因此会损失边缘图像信息。
为了解决上述的问题，我们可以在图像边缘填充像素，也就是 padding 操作了。

如果我们设置在图像边缘填充的像素数为p，那么经过卷积后的图像是：(n+2p-f+1)x(n+2p-f+1).
如何去选择p呢
通常有两种选择：
-Valid:也就是说不填充操作(no padding),因此如果我们有nxn的图像，fxf的过滤器，那么我们进行卷积nxn fxf=(n-f+1)x(n-f+1)的输出图像；
-Same:也就是填充后是输出图像的大小的与输入相同，同样就有(n+2p)x(n+2p) fxf=nxn,那么可以算,n+2p-f+1=n,得到p=(f-1)/2。
通常对于过滤器的选择有一个默认的准则就是选择过滤器的尺寸是奇数的过滤器。
- 卷积步长设置(Strided COnvolution)
卷积步长也就是我们进行卷积操作时，过滤器每次移动的步长，上面我们介绍的卷积操作步长默认都是1，也就是说每次移动过滤器时我们是向右移动一格，或者向下移动一格。
但是我们可以对卷积进行步长的设置，也就是我们能够对卷积移动的格数进行设置。同样假如我们的图像是nxn,过滤器是fxf，padding设置是p，步长strided设置为s,那么我们进行卷积操作后输出的图像为((n+2p-f)/s+1)x((n+2p-f)/s+1),那么这样就会出现一个问题，如果计算结果不是整数怎么办？

一般是选择向下取整，也就是说明，只有当我们的过滤器完全在图像上能够覆盖时才对它进行计算，这是一个惯例。
实际上上述所述的操作在严格数学角度来说不是卷积的定义，卷积的定义上我们计算的时候在移动步长之前也就是对应元素相乘之前是需要对卷积核或者说我们的过滤器进行镜像操作的，经过镜像操作后再把对应元素进行相乘这才是严格意义上的卷积操作，在数学角度上来说这个操作不算严格的卷积操作应该是属于互相关操作，但是在深度学习领域中，大家按照惯例都省略了反转操作，也把这个操作叫做卷积操作

我们知道彩色图像有RGB三个通道，因此对于输入来说是一个三维的输入，那么对三维输入的图像如何进行卷积操作呢？

例子，如上图我们输入图像假设为6×6×3，3代表有RGB三个通道channel,或者可以叫depth深度，过滤器的选择为3×3×3，其中需要规定的是，顾虑器的channel必须与输入图像的channel相同，长宽没有限制，那么计算过程是，我们将过滤器的立体覆盖在输入，这样对应的27个数对应相乘后相加得到一个数，对应到我们的输出，因此这样的方式进行卷积后我们得出的输出层为4×4×1。如果我们有多个过滤器，比如我们分别用两个过滤器一个提取垂直特征，一个提取水平特征，那么输出图4×4×2 。也就是代表我们输出的深度或者说通道与过滤器的个数是相等的。

第l层的卷积标记如下：

加入我们的过滤器是3×3×3规格的，如果我们设定10个过滤器，那么需要学习的参数总数为每个过滤器为27个参数然后加上一个偏差bias那么每个过滤器的参数为28个，所以十个过滤器的参数为280个。从这里也就可以看出，不管我们输入的图片大小是多大，我们都只需要计算这些参数，因此参数共享也就很容易理解了。

为了缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，我们经常会使用池化层。池化层的计算方式与卷积类似，只是我们需要对每一个通道都进行池化操作。
池化的方式一般有两种：Max Pooling和Average Pooling。

上面为Max Pooling，那么计算方法与卷积类似，首先设定超参数比如过滤器的大小与步长，然后覆盖到对应格子上面，用最大值取代其值作为输出的结果，例如上图为过滤器选择2×2，步长选择为2，因此输出就是2×2的维度，每个输出格子都是过滤器对应维度上输入的最大值。如果为平均池化，那么就是选择其间的平均值作为输出的值。
因此从上面的过程我们看到，通过池化操作能够缩小模型，同时能让特征值更加明显，也就提高了提取特征的鲁棒性。

⑥ 卷积神经网络算法是什么

一维构筑、二维构筑、全卷积构筑。

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）”。

卷积神经网络的连接性：

卷积神经网络中卷积层间的连接被称为稀疏连接（sparse connection），即相比于前馈神经网络中的全连接，卷积层中的神经元仅与其相邻层的部分，而非全部神经元相连。具体地，卷积神经网络第l层特征图中的任意一个像素（神经元）都仅是l-1层中卷积核所定义的感受野内的像素的线性组合。

卷积神经网络的稀疏连接具有正则化的效果，提高了网络结构的稳定性和泛化能力，避免过度拟合，同时，稀疏连接减少了权重参数的总量，有利于神经网络的快速学习，和在计算时减少内存开销。

卷积神经网络中特征图同一通道内的所有像素共享一组卷积核权重系数，该性质被称为权重共享（weight sharing）。权重共享将卷积神经网络和其它包含局部连接结构的神经网络相区分，后者虽然使用了稀疏连接，但不同连接的权重是不同的。权重共享和稀疏连接一样，减少了卷积神经网络的参数总量，并具有正则化的效果。

在全连接网络视角下，卷积神经网络的稀疏连接和权重共享可以被视为两个无限强的先验（pirior），即一个隐含层神经元在其感受野之外的所有权重系数恒为0（但感受野可以在空间移动）；且在一个通道内，所有神经元的权重系数相同。

阅读全文

与卷积神经网络为什么不能无限加深相关的资料

热点内容

手机网络变慢怎么办小妙招发布：2024-05-18 20:21:45 浏览：942

路由器网络连接怎么弄发布：2024-05-18 20:01:18 浏览：718

oppo手机没有网络如何变成有网络发布：2024-05-18 19:44:44 浏览：854

已连wifi网络不可用发布：2024-05-18 19:10:02 浏览：414

有线网络帐号和密码忘了怎么办发布：2024-05-18 19:04:02 浏览：492

网络风险如何分析发布：2024-05-18 18:34:53 浏览：486

网络安全培训课程包括哪些发布：2024-05-18 18:34:15 浏览：23

常用的无线网络信号没有了发布：2024-05-18 18:31:51 浏览：354

网络营销相关的商务词汇发布：2024-05-18 18:30:56 浏览：881

中学生如何远离网络危害发布：2024-05-18 18:30:02 浏览：609

怎么网络引流发布：2024-05-18 18:29:56 浏览：209

网络突然失去密码了发布：2024-05-18 18:05:12 浏览：733

三星手机一直显示网络已禁用发布：2024-05-18 18:00:52 浏览：987

计算机网络购物安全参考文献发布：2024-05-18 17:54:47 浏览：901

手机信号满格无数据网络发布：2024-05-18 17:53:23 浏览：733

上赞WiFi哪个网络好发布：2024-05-18 17:53:17 浏览：593

iphone无法加入网络修改网络设置发布：2024-05-18 17:39:54 浏览：569

乐视怎么设置网络模式发布：2024-05-18 17:39:38 浏览：498

小爱音箱连接无线网络怎么用发布：2024-05-18 17:26:03 浏览：828

固态硬盘与网络机顶盒连接发布：2024-05-18 17:23:54 浏览：525

导航:首页 > 网络问题 > 卷积神经网络为什么不能无限加深

卷积神经网络为什么不能无限加深

综述

与卷积神经网络为什么不能无限加深相关的资料

友情链接