导航:首页 > 网络连接 > 全连接的深度前馈神经网络

全连接的深度前馈神经网络

发布时间：2022-11-25 08:04:28

⑴ 前馈神经网络、BP神经网络、卷积神经网络的区别与联系

一、计算方法不同

1、前馈神经网络：一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。

2、BP神经网络：是一种按照误差逆向传播算法训练的多层前馈神经网络。

3、卷积神经网络：包含卷积计算且具有深度结构的前馈神经网络。

二、用途不同

1、前馈神经网络：主要应用包括感知器网络、BP网络和RBF网络。

2、BP神经网络：

（1）函数逼近：用输入向量和相应的输出向量训练一个网络逼近一个函数；

（2）模式识别：用一个待定的输出向量将它与输入向量联系起来；

（3）分类：把输入向量所定义的合适方式进行分类；

（4）数据压缩：减少输出向量维数以便于传输或存储。

3、卷积神经网络：可应用于图像识别、物体识别等计算机视觉、自然语言处理、物理学和遥感科学等领域。

联系：

BP神经网络和卷积神经网络都属于前馈神经网络，三者都属于人工神经网络。因此，三者原理和结构相同。

三、作用不同

1、前馈神经网络：结构简单，应用广泛，能够以任意精度逼近任意连续函数及平方可积函数．而且可以精确实现任意有限训练样本集。

2、BP神经网络：具有很强的非线性映射能力和柔性的网络结构。网络的中间层数、各层的神经元个数可根据具体情况任意设定，并且随着结构的差异其性能也有所不同。

3、卷积神经网络：具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

(1)全连接的深度前馈神经网络扩展阅读：

1、BP神经网络优劣势

BP神经网络无论在网络理论还是在性能方面已比较成熟。其突出优点就是具有很强的非线性映射能力和柔性的网络结构。网络的中间层数、各层的神经元个数可根据具体情况任意设定，并且随着结构的差异其性能也有所不同。但是BP神经网络也存在以下的一些主要缺陷。

①学习速度慢，即使是一个简单的问题，一般也需要几百次甚至上千次的学习才能收敛。

②容易陷入局部极小值。

③网络层数、神经元个数的选择没有相应的理论指导。

④网络推广能力有限。

2、人工神经网络的特点和优越性，主要表现在以下三个方面

①具有自学习功能。例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、效益预测，其应用前途是很远大的。

②具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。

③具有高速寻找优化解的能力。寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

⑵ 深度前馈网络

看过西瓜书和李航的《统计学习方法》，对机器学习的基本算法算是有了初步的理解。机器学习的算法和思想固然重要，在实际中也有很多应用场景，但在超大数据集的表现上，深度学习才是当下效果最好的工具。可惜的是，花书这样一本经典着作的中文版翻译和机翻差不多水平，因此看的时候只能放慢速度。闲言少叙，下面是第六章的学习记录。

深度前馈网络（deep feedforward network） ，也叫作前馈神经网络（feedforward neural network）或者多层感知机（multilayer perceptron, MLP），是典型的深度学习模型。前馈网络的目标是近似某个函数。例如，对于分类器，将输入映射到一个类别。前馈网络定义了一个映射，并且学习参数的值使它能够得到最佳的函数近似。

下面我们把“深度前馈网络”这个词拆开来看：

那么深度前馈网络的各层之间有什么区别呢？从功能来讲，训练样本直接指明了 输出层 在每一点x上必须做什么，它必须产生一个接近 y 的值。但训练数据并没有给出其它层中的所需的输出，所以这些层被称为 隐藏层（hidden layer） 。

一种理解前馈网络的方式是从线性模型开始，并考虑如何克服它的局限性。如果各层的函数都是线性函数，那么复合后的函数依然是线性的，此时我们的网络模型等价于线性模型。为了提高模型的表示能力，我们需要将各层的设置为非线性的，从而得到一个非线性映射。我们可以认为提供了一组描述的特征，或者认为它提供了的一个新的表示。

设计和训练神经网络与使用梯度下降训练其他任何机器学习模型并没有太大不同。神经网络和线性模型等算法的最大区别，在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。这意味着神经网络的训练通常使用迭代的、基于梯度的优化， 仅仅使得代价函数达到一个非常小的值 ；而不是像用于训练线性回归模型的线性方程求解器或者用于训练逻辑回归或 SVM 的凸优化算法那样保证全局收敛。

用于非凸损失函数的随机梯度下降没有这种收敛性保证，并且 对参数的初始值很敏感。对于前馈神经网络，将所有的权重值初始化为小随机数是很重要的。偏置可以初始化为零或者小的正值。

大多数现代的神经网络使用最大似然来训练。这意味着代价函数就是负的对数似然，它与训练数据和模型分布间的 交叉熵 等价。这个代价函数表示为

使用最大似然来导出代价函数的方法的一个优势是，它减轻了为每个模型设计代价函数的负担。明确一个模型则自动地确定了一个代价函数。

用于实现最大似然估计的交叉熵代价函数有一个不同寻常的特性，那就是当它被应用于实践中经常遇到的模型时，它 通常没有最小值。 如果模型可以控制输出分布的密度（例如，通过学习高斯输出分布的方差参数），那么它可能对正确的训练集输出赋予极其高的密度，这将导致交叉熵趋向负无穷。 正则化技术提供了一些不同的方法来修正学习问题，使得模型不会通过这种方式来获得无限制的收益。

一种简单的输出单元是基于仿射变换的输出单元，仿射变换不具有非线性。这些单元往往被直接称为 线性单元 。给定特征，线性输出层产生一个向量，线性输出层经常被用来 产生条件高斯分布的均值 ：

最大化其对数似然此时等价于最小化均方误差。

许多任务需要预测二值型变量的值。具有两个类的分类问题可以归结为这种形式。此时最大似然的方法是定义在条件下的 Bernoulli 分布。为保证模型给出了错误答案时，总能有一个较大的梯度。可以使用 sigmoid输出单元 结合最大似然来实现。sigmoid 输出单元定义为：

这种在对数空间里预测概率的方法可以很自然地使用最大似然学习。因为用于最大似然的代价函数是，代价函数中的抵消了中的。如果没有这个效果，sigmoid 的饱和性会阻止基于梯度的学习做出好的改进。因此， 最大似然几乎总是训练输出单元的优选方法。

当我们想要表示一个具有 n 个可能取值的离散型随机变量的分布时，我们可以使用函数。它可以看作是函数的扩展。

函数最常用作分类器的输出，来表示个不同类上的概率分布。比较少见的是，函数可以在模型内部使用，例如如果我们想要在某个内部变量的个不同选项中进行选择。函数的形式为：

和一样，当使用最大化对数似然训练来输出目标值时，使用指数函数工作地非常好。

隐藏单元的设计是一个非常活跃的研究领域，并且还没有许多明确的指导性理论原则。

整流线性单元（Rectified Linear Unit, ReLU）是隐藏单元极好的默认选择。许多其他类型的隐藏单元也是可用的。决定何时使用哪种类型的隐藏单元是困难的事（尽管整流线性单元通常是一个可接受的选择）。我们这里描述对于每种隐藏单元的一些基本直觉。这些直觉可以用来建议我们何时来尝试一些单元。通常不可能预先预测出哪种隐藏单元工作得最好。设计过程充满了试验和错误，先直觉认为某种隐藏单元可能表现良好，然后用它组成神经网络进行训练，最后用验证集来评估它的性能。

大多数的隐藏单元都接受输入向量 x，计算仿射变换，然后使用一个逐元素的非线性函数。大多数隐藏单元的区别仅仅在于激活函数的形式。

整流线性单元使用激活函数：

整流线性单元通常作用于仿射变换之上：

当初始化仿射变换的参数时，可以将 b 的所有元素设置成一个小的正值，例如 0.1。这使得整流线性单元很可能初始时就对训练集中的大多数输入呈现激活状态，并且允许导数通过。

整流线性单元的一个缺陷是它们不能通过基于梯度的方法学习那些使它们激活为零的样本。整流线性单元的各种扩展保证了它们能在各个位置都接收到梯度。

整流线性单元的三个扩展基于当时使用一个非零的斜率：

绝对值整流（absolute value rectification） 固定来得到：，它用于图像中的对象识别（Jarrett et al., 2009a）； 渗漏整流线性单元（Leaky ReLU） (Maas et al., 2013) 将固定成一个类似 0.01 的小值； 参数化整流线性单元（parametric ReLU） 将作为学习的参数 (He et al., 2015)。

maxout 单元（maxout unit） (Goodfellow et al., 2013a) 进一步扩展了整流线性单元。maxout单元将划分为每组有个值的组，而不是使用作用于每个元素的函数。每个maxout单元则输出每组中的最大元素：

这里是组的输入索引集。因为激活函数中有了max操作，所以整个maxout网络也是一种非线性的变换。

maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合，而maxout又是取k个隐隐含层节点的最大值，这些”隐隐含层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有关）。

整流线性单元和它们的这些扩展都是基于一个原则，那就是如果它们的行为更接近线性，那么模型更容易优化。

在引入整流线性单元之前，大多数神经网络使用 logistic sigmoid 激活函数：

或者是双曲正切激活函数：

这些激活函数紧密相关，因为：

我们已经看过 sigmoid 单元作为输出单元用来预测二值型变量取值为 1 的概率。与分段线性单元不同，sigmoid 单元在其大部分定义域内都饱和——当 z 取绝对值很大的正值时，它们饱和到一个高值，当 z 取绝对值很大的负值时，它们饱和到一个低值，并且仅仅当 z 接近 0 时它们才对输入强烈敏感。sigmoid 单元的广泛饱和性会使得基于梯度的学习变得非常困难。因为这个原因，现在不鼓励将它们用作前馈网络中的隐藏单元。当使用一个合适的代价函数来抵消 sigmoid 的饱和性时，它们作为输出单元可以与基于梯度的学习相兼容。

当必须要使用 sigmoid 激活函数时，双曲正切激活函数通常要比 logistic sigmoid 函数表现更好。在而的意义上，它更像是单位函数。因为 tanh 在 0 附近与单位函数类似。

架构（architecture） 一词是指网络的整体结构： 它应该具有多少单元，以及这些单元应该如何连接。

在链式架构中，主要的架构考虑是选择网络的深度和每一层的宽度。我将会看到，即使只有一个隐藏层的网络也足够适应训练集。 更深层的网络通常能够对每一层使用更少的单元数和更少的参数，并且经常容易泛化到测试集，但是通常也更难以优化。 对于一个具体的任务，理想的网络架构必须通过实验，观测在验证集上的误差来找到。

万能近似定理（universal approximation theorem）

一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 ‘‘挤压’’ 性质的激活函数（例如logistic sigmoid激活函数）的隐藏层，只要给予网络足够数量的隐藏单元，它可以 以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数 。前馈网络的导数也可以任意好地来近似函数的导数 (Hornik et al., 1990)。

万能近似定理意味着无论我们试图学习什么函数，我们知道一个大的MLP一定能够表示这个函数。

然而，我们不能保证训练算法能够学得这个函数。即使 MLP能够表示该函数，学习也可能因两个不同的原因而失败。 首先，用于训练的优化算法可能找不到用于期望函数的参数值。其次，训练算法可能由于过拟合而选择了错误的函数。

总之，具有单层的前馈网络足以表示任何函数，但是网络层可能大得不可实现，并且可能无法正确地学习和泛化。在很多情况下，使用更深的模型能够减少表示期望函数所需的单元的数量，并且可以减少泛化误差。

存在一些函数族能够在网络的深度大于某个值d时被高效地近似，而当深度被限制到小于或等于d时需要一个远远大于之前的模型。在很多情况下，浅层模型所需的隐藏单元的数量是n的指数级。

Montufar et al. (2014) 的主要定理指出， 具有个输入深度为每个隐藏层具有个单元的深度整流网络可以描述的线性区域的数量是 ：

根据经验，更深的模型似乎确实在广泛的任务中泛化得更好。

目前为止，我们都将神经网络描述成层的简单链式结构，主要的考虑因素是网络的深度和每层的宽度。在实践中，神经网络显示出相当的多样性。

一般的，层不需要连接在链中，尽管这是最常见的做法。许多架构构建了一个主链，但随后又添加了额外的架构特性，例如从层 i 到层 i + 2 或者更高层的 跳跃连接 。这些跳跃连接使得梯度更容易从输出层流向更接近输入的层。

架构设计考虑的另外一个关键点是如何将层与层之间连接起来。默认的神经网络层采用矩阵 W 描述的线性变换，每个输入单元连接到每个输出单元。许多专用网络具有较少的连接，使得输入层中的每个单元仅连接到输出层单元的一个小子集。这些用于 减少连接数量 的策略减少了参数的数量以及用于评估网络的计算量，但通常高度依赖于问题。

当我们使用前馈神经网络接收输入并产生输出时，信息通过网络向前流动。输入提供初始信息，然后传播到每一层的隐藏单元，最终产生输出。这称之为 前向传播（forward propagation） 。在训练过程中，前向传播可以持续向前直到它产生一个标量代价函数。 反向传播（back propagation） 算法 (Rumelhart et al., 1986c)，经常简称为backprop，允许来自代价函数的信息通过网络向后流动，以便计算梯度。

将计算形式化为图形的方法有很多。这里，我们使用图中的每一个节点来表示一个变量。变量可以是标量、向量、矩阵、张量、或者甚至是另一类型的变量。为了形式化我们的图形，我们还需引入操作（operation）这一概念。操作是指一个或多个变量的简单函数。我们的图形语言伴随着一组被允许的操作。我们可以通过将多个操作复合在一起来描述更为复杂的函数。

如果变量 y 是变量 x 通过一个操作计算得到的，那么我们画一条从 x 到 y 的有向边。我们有时用操作的名称来注释输出的节点，当上下文很明确时，有时也会省略这个标注。计算图的实例如下：

使用符号到符号的方法计算导数的示例如下。在这种方法中，反向传播算法不需要访问任何实际的特定数值。相反，它将节点添加到计算图中来描述如何计算这些导数。通用图形求值引擎可以在随后计算任何特定数值的导数。本例从表示的图开始，运行反向传播算法，指导它构造表达式对应的图。

这部分花书上讲了很多内容……我看得有些失去耐心……可能是讲得太细致了吧……我对反向传播算法的认识很简单，就是一个链式法则，一层一层计算梯度然后向后传播。这里根据之前上课时候的课件内容做下简单回顾：

总之反向传播算法的要点就是 以恰当的顺序计算梯度，从而充分利用链式法则来提高计算效率 。我个人认为理解BP的最佳方式就是自己画个图手推一遍。

⑶ 神经网络：卷积神经网络（CNN）

神经网络最早是由心理学家和神经学家提出的，旨在寻求开发和测试神经的计算模拟。

粗略地说，神经网络是一组连接的输入/输出单元，其中每个连接都与一个权相关联。在学习阶段，通过调整权值，使得神经网络的预测准确性逐步提高。由于单元之间的连接，神经网络学习又称连接者学习。

神经网络是以模拟人脑神经元的数学模型为基础而建立的，它由一系列神经元组成，单元之间彼此连接。从信息处理角度看，神经元可以看作是一个多输入单输出的信息处理单元，根据神经元的特性和功能，可以把神经元抽象成一个简单的数学模型。

神经网络有三个要素：拓扑结构、连接方式、学习规则

神经网络的拓扑结构：神经网络的单元通常按照层次排列，根据网络的层次数，可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等。结构简单的神经网络，在学习时收敛的速度快，但准确度低。

神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂，神经网络的层数就越多。例如，两层神经网络常用来解决线性问题，而多层网络就可以解决多元非线性问题

神经网络的连接：包括层次之间的连接和每一层内部的连接，连接的强度用权来表示。

根据层次之间的连接方式，分为：

1）前馈式网络：连接是单向的，上层单元的输出是下层单元的输入，如反向传播网络，Kohonen网络

2）反馈式网络：除了单项的连接外，还把最后一层单元的输出作为第一层单元的输入，如Hopfield网络

根据连接的范围，分为：

1）全连接神经网络：每个单元和相邻层上的所有单元相连

2）局部连接网络：每个单元只和相邻层上的部分单元相连

神经网络的学习

根据学习方法分：

感知器：有监督的学习方法，训练样本的类别是已知的，并在学习的过程中指导模型的训练

认知器：无监督的学习方法，训练样本类别未知，各单元通过竞争学习。

根据学习时间分：

离线网络：学习过程和使用过程是独立的

在线网络：学习过程和使用过程是同时进行的

根据学习规则分：

相关学习网络：根据连接间的激活水平改变权系数

纠错学习网络：根据输出单元的外部反馈改变权系数

自组织学习网络：对输入进行自适应地学习

摘自《数学之美》对人工神经网络的通俗理解：

神经网络种类很多，常用的有如下四种：

1）Hopfield网络，典型的反馈网络，结构单层，有相同的单元组成

2）反向传播网络，前馈网络，结构多层，采用最小均方差的纠错学习规则，常用于语言识别和分类等问题

3）Kohonen网络：典型的自组织网络，由输入层和输出层构成，全连接

4）ART网络：自组织网络

深度神经网络：

Convolutional Neural Networks(CNN)卷积神经网络

Recurrent neural Network(RNN)循环神经网络

Deep Belief Networks(DBN)深度信念网络

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。

深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

Machine Learning vs. Deep Learning

神经网络（主要是感知器）经常用于分类

神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。

神经网络的学习就是通过迭代算法，对权值逐步修改的优化过程，学习的目标就是通过改变权值使训练集的样本都能被正确分类。

神经网络特别适用于下列情况的分类问题：

1) 数据量比较小，缺少足够的样本建立模型

2) 数据的结构难以用传统的统计方法来描述

3) 分类模型难以表示为传统的统计模型

缺点：

1) 需要很长的训练时间，因而对于有足够长训练时间的应用更合适。

2) 需要大量的参数，这些通常主要靠经验确定，如网络拓扑或“结构”。

3) 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。

优点：

1) 分类的准确度高

2)并行分布处理能力强

3)分布存储及学习能力高

4)对噪音数据有很强的鲁棒性和容错能力

最流行的基于神经网络的分类算法是80年代提出的后向传播算法。后向传播算法在多路前馈神经网络上学习。

定义网络拓扑

在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。

对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。

离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0,a1,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。

一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。

隐藏层单元数设多少个“最好” ，没有明确的规则。

网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。

后向传播算法学习过程：

迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。

每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。

这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。

算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。

后向传播算法分为如下几步：

1) 初始化权

网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。

每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。

2) 向前传播输入

对于每一个样本X，重复下面两步：

向前传播输入，向后传播误差

计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj。隐藏层和输出层：输入=前一层的输出的线性组合,即，对于单元j， Ij =wij Oi + θj，输出=

3) 向后传播误差

计算各层每个单元的误差。

输出层单元j，误差：

Oj是单元j的实际输出，而Tj是j的真正输出。

隐藏层单元j，误差：

wjk是由j到下一层中单元k的连接的权，Errk是单元k的误差

更新权和偏差，以反映传播的误差。

权由下式更新：

其中，△wij是权wij的改变。l是学习率，通常取0和1之间的值。

偏置由下式更新：

其中，△θj是偏置θj的改变。

Example

人类视觉原理：

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和Torsten Wiesel，以及Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

卷积神经网络是一种多层神经网络，擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法，成功将数据量庞大的图像识别问题不断降维，最终使其能够被训练。

CNN最早由Yann LeCun提出并应用在手写字体识别上。LeCun提出的网络称为LeNet，其网络结构如下：

这是一个最典型的卷积网络，由卷积层、池化层、全连接层组成。其中卷积层与池化层配合，组成多个卷积组，逐层提取特征，最终通过若干个全连接层完成分类。

CNN通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。

降低参数量级：如果使用传统神经网络方式，对一张图片进行分类，那么，把图片的每个像素都连接到隐藏层节点上，对于一张1000x1000像素的图片，如果有1M隐藏层单元，一共有10^12个参数，这显然是不能接受的。

但是在CNN里，可以大大减少参数个数，基于以下两个假设：

1）最底层特征都是局部性的，也就是说，用10x10这样大小的过滤器就能表示边缘等底层特征

2）图像上不同小片段，以及不同图像上的小片段的特征是类似的，也就是说，能用同样的一组分类器来描述各种各样不同的图像

基于以上两个假设，就能把第一层网络结构简化

用100个10x10的小过滤器，就能够描述整幅图片上的底层特征。

卷积运算的定义如下图所示：

如上图所示，一个5x5的图像，用一个3x3的卷积核：

   101

   010

   101

来对图像进行卷积操作（可以理解为有一个滑动窗口，把卷积核与对应的图像像素做乘积然后求和），得到了3x3的卷积结果。

这个过程可以理解为使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。在实际训练过程中，卷积核的值是在学习过程中学到的。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果设计了6个卷积核，可以理解为这个图像上有6种底层纹理模式，也就是用6种基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例：

池化的过程如下图所示：

可以看到，原始图片是20x20的，对其进行采样，采样窗口为10x10，最终将其采样成为一个2x2大小的特征图。

之所以这么做，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行采样。

即使减少了许多数据，特征的统计属性仍能够描述图像，而且由于降低了数据维度，有效地避免了过拟合。

在实际应用中，分为最大值采样（Max-Pooling）与平均值采样（Mean-Pooling）。

LeNet网络结构：

注意，上图中S2与C3的连接方式并不是全连接，而是部分连接。最后，通过全连接层C5、F6得到10个输出，对应10个数字的概率。

卷积神经网络的训练过程与传统神经网络类似，也是参照了反向传播算法

第一阶段，向前传播阶段：

a）从样本集中取一个样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op

第二阶段，向后传播阶段

a）计算实际输出Op与相应的理想输出Yp的差；

b）按极小化误差的方法反向传播调整权矩阵。

⑷ DNN、RNN、CNN分别是什么意思

DNN（深度神经网络），是深度学习的基础。

DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准, 多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）。

从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层,如下图示例，一般来说第一层是输出层，最后一层是输出层，而中间的层数都是隐藏层。

CNN（卷积神经网络），是一种前馈型的神经网络，目前深度学习技术领域中非常具有代表性的神经网络之一。

CNN在大型图像处理方面有出色的表现，目前已经被大范围使用到图像分类、定位等领域中。相比于其他神经网络结构，卷积神经网络需要的参数相对较少，使的其能够广泛应用。

RNN（循环神经网络），一类用于处理序列数据的神经网络，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。

从广义上来说，DNN被认为包含了CNN、RNN这些具体的变种形式。在实际应用中，深度神经网络DNN融合了多种已知的结构，包含卷积层或LSTM单元，特指全连接的神经元结构，并不包含卷积单元或时间上的关联。

⑸ CNN（卷积神经网络）算法

基础知识讲解：
卷积：通过两个函数f 和g 生成第三个函数的一种数学算子，表征函数f 与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
前馈神经网络：各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层．各层间没有反馈。
卷积神经网络：是一类包含卷积计算且具有深度结构的前馈神经网络
卷积核：就是图像处理时，给定输入图像，输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素，其中权值由一个函数定义，这个函数称为卷积核。
下采样：对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。
结构介绍
输入层：用于数据输入
卷积层：利用卷积核进行特征提取和特征映射
激励层：非线性映射，卷积是线性映射，弥补不足
池化层：进行下采样，对特征图稀疏处理，减少数据运算量
全连接层：在CNN的尾部进行重新拟合，减少特征信息的损失

输入层：
在CNN的输入层中，（图片）数据输入的格式与全连接神经网络的输入格式（一维向量）不太一样。CNN的输入层的输入格式保留了图片本身的结构。
对于黑白的 28×28 的图片，CNN的输入是一个 28×28 的的二维神经元：
而对于RGB格式的28×28图片，CNN的输入则是一个 3×28×28 的三维神经元（RGB中的每一个颜色通道都有一个 28×28 的矩阵）

卷积层：

左边是输入，中间部分是两个不同的滤波器Filter w0、Filter w1，最右边则是两个不同的输出。
ai.j=f(∑m=02∑n=02wm,nxi+m,j+n+wb)
wm,n:filter的第m行第n列的值
xi,j: 表示图像的第i行第j列元素
wb:用表示filter的偏置项
ai,j:表示Feature Map的第i行第j列元素
f:表示Relu激活函数

激励层：
使用的激励函数一般为ReLu函数：
f(x)=max(x,0)
卷积层和激励层通常合并在一起称为“卷积层”。

池化层：
当输入经过卷积层时，若感受视野比较小，布长stride比较小，得到的feature map （特征图）还是比较大，可以通过池化层来对每一个 feature map 进行降维操作，输出的深度还是不变的，依然为 feature map 的个数。
池化层也有一个“池化视野（filter）”来对feature map矩阵进行扫描，对“池化视野”中的矩阵值进行计算，一般有两种计算方式：
Max pooling：取“池化视野”矩阵中的最大值
Average pooling：取“池化视野”矩阵中的平均值

训练过程：
1.前向计算每个神经元的输出值aj（表示网络的第j个神经元，以下同）；
2.反向计算每个神经元的误差项σj，σj在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数Ed对神经元加权输入的偏导数
3.计算每个神经元连接权重wi,j的梯度（ wi,j表示从神经元i连接到神经元j的权重）
1.最后，根据梯度下降法则更新每个权重即可。
参考： https://blog.csdn.net/love__live1/article/details/79481052

⑹ 卷积神经网络

关于花书中卷积网络的笔记记录于 https://www.jianshu.com/p/5a3c90ea0807 。

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有 局部连接、权重共享 等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。 感受野（Receptive Field） 主要是指听觉、视觉等神经系统中一些神经元的特性，即 神经元只接受其所支配的刺激区域内的信号 。

卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时，会存在以下两个问题：

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练。 卷积神经网络有三个结构上的特性：局部连接，权重共享以及汇聚 。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。

卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。

一维卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发生器每个时刻t 产生一个信号，其信息的衰减率为，即在个时间步长后，信息为原来的倍。假设，那么在时刻t收到的信号为当前时刻产生的信息和以前时刻延迟信息的叠加：

我们把称为 滤波器（Filter）或卷积核（Convolution Kernel） 。假设滤波器长度为，它和一个信号序列的卷积为：

信号序列和滤波器的卷积定义为：

一般情况下滤波器的长度远小于信号序列长度，下图给出一个一维卷积示例，滤波器为：

二维卷积经常用在图像处理中。因为图像为一个两维结构，所以需要将一维卷积进行扩展。给定一个图像和滤波器，其卷积为：

下图给出一个二维卷积示例：

注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和，而是先把卷积核旋转180度，再做上述运算。

在图像处理中，卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为 特征映射（Feature Map） 。

最上面的滤波器是常用的高斯滤波器，可以用来对图像进行 平滑去噪 ；中间和最下面的过滤器可以用来 提取边缘特征 。

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转（即上文提到的旋转180度）。 在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。

互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现 。给定一个图像和卷积核，它们的互相关为：

互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积 。当卷积核是可学习的参数时，卷积和互相关是等价的。因此，为了实现上（或描述上）的方便起见，我们用互相关来代替卷积。事实上，很多深度学习工具中卷积操作其实都是互相关操作。

在卷积的标准定义基础上，还可以引入滤波器的 滑动步长 和 零填充 来增加卷积多样性，更灵活地进行特征抽取。

滤波器的步长（Stride）是指滤波器在滑动时的时间间隔。

零填充（Zero Padding）是在输入向量两端进行补零。

假设卷积层的输入神经元个数为，卷积大小为，步长为，神经元两端各填补个零，那么该卷积层的神经元数量为。

一般常用的卷积有以下三类：

因为卷积网络的训练也是基于反向传播算法，因此我们重点关注卷积的导数性质：

假设。

，，。函数为一个标量函数。

则由有：

可以看出， 关于的偏导数为和的卷积 ：

同理得到：

当或时，，即相当于对进行的零填充。从而 关于的偏导数为和的宽卷积 。

用互相关的“卷积”表示，即为（注意 宽卷积运算具有交换性性质 ）：

在全连接前馈神经网络中，如果第层有个神经元，第层有个神经元，连接边有个，也就是权重矩阵有个参数。当和都很大时，权重矩阵的参数非常多，训练的效率会非常低。

如果采用卷积来代替全连接，第层的净输入为第层活性值和滤波器的卷积，即：

根据卷积的定义，卷积层有两个很重要的性质：

由于局部连接和权重共享，卷积层的参数只有一个m维的权重和1维的偏置，共个参数。参数个数和神经元的数量无关。此外，第层的神经元个数不是任意选择的，而是满足。

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。

特征映射（Feature Map）为一幅图像（或其它特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。 为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。

在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，深度；如果是彩色图像，分别有RGB三个颜色通道的特征映射，深度。

不失一般性，假设一个卷积层的结构如下：

为了计算输出特征映射，用卷积核分别对输入特征映射进行卷积，然后将卷积结果相加，并加上一个标量偏置得到卷积层的净输入再经过非线性激活函数后得到输出特征映射。

在输入为，输出为的卷积层中，每个输出特征映射都需要个滤波器以及一个偏置。假设每个滤波器的大小为，那么共需要个参数。

汇聚层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，并从而减少参数数量。

常用的汇聚函数有两种：

其中为区域内每个神经元的激活值。

可以看出，汇聚层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。

典型的汇聚层是将每个特征映射划分为大小的不重叠区域，然后使用最大汇聚的方式进行下采样。汇聚层也可以看做是一个特殊的卷积层，卷积核大小为，步长为，卷积核为函数或函数。过大的采样区域会急剧减少神经元的数量，会造成过多的信息损失。

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。

目前常用卷积网络结构如图所示，一个卷积块为连续个卷积层和个汇聚层（通常设置为，为或）。一个卷积网络中可以堆叠个连续的卷积块，然后在后面接着个全连接层（的取值区间比较大，比如或者更大；一般为）。

目前，整个网络结构 趋向于使用更小的卷积核（比如和）以及更深的结构（比如层数大于50） 。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用变得也越来越小，因此目前比较流行的卷积网络中， 汇聚层的比例也逐渐降低，趋向于全卷积网络 。

在全连接前馈神经网络中，梯度主要通过每一层的误差项进行反向传播，并进一步计算每层参数的梯度。在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层。而参数为卷积核以及偏置，因此 只需要计算卷积层中参数的梯度。

不失一般性，第层为卷积层，第层的输入特征映射为，通过卷积计算得到第层的特征映射净输入，第层的第个特征映射净输入

由得：

同理可得，损失函数关于第层的第个偏置的偏导数为：

在卷积网络中，每层参数的梯度依赖其所在层的误差项。

卷积层和汇聚层中，误差项的计算有所不同，因此我们分别计算其误差项。

第层的第个特征映射的误差项的具体推导过程如下：

其中为第层使用的激活函数导数，为上采样函数（upsampling），与汇聚层中使用的下采样操作刚好相反。如果下采样是最大汇聚（max pooling），误差项中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其它神经元的误差项的都设为0。如果下采样是平均汇聚（meanpooling），误差项中每个值会被平均分配到上一层对应区域中的所有神经元上。

第层的第个特征映射的误差项的具体推导过程如下：

其中为宽卷积。

LeNet-5虽然提出的时间比较早，但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5 的网络结构如图：

不计输入层，LeNet-5共有7层，每一层的结构为：

AlexNet是第一个现代深度卷积网络模型，其首次使用了很多现代深度卷积网络的一些技术方法，比如采用了ReLU作为非线性激活函数，使用Dropout防止过拟合，使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。

AlexNet的结构如图，包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制，AlexNet 将网络拆为两半，分别放在两个GPU上，GPU间只在某些层（比如第3层）进行通讯。

AlexNet的具体结构如下：

在卷积网络中，如何设置卷积层的卷积核大小是一个十分关键的问题。 在Inception网络中，一个卷积层包含多个不同大小的卷积操作，称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成 。

v1版本的Inception模块，采用了4组平行的特征抽取方式，分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时，为了提高计算效率，减少参数数量，Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后，进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息， 1×1的卷积相当于先进行一次特征抽取 。

⑺ 一文看懂四种基本的神经网络架构

原文链接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
一般来说，神经网络的架构可以分为三类：

前馈神经网络：
这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：
循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。
循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。
循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：
对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。
首先还是这张图
这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。
与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？
我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：
图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。
物体光照：像素的强度被光照强烈影响。
图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。
情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。
卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。
卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。
这里举AlexNet为例：

·输入：224×224大小的图片，3通道
·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。
·第一层max-pooling：2×2的核。
·第二层卷积：5×5卷积核256个，每个GPU上128个。
·第二层max-pooling：2×2的核。
·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
·第五层卷积：3×3的卷积核256个，两个GPU上个128个。
·第五层max-pooling：2×2的核。
·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
·第二层全连接：4096维
·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。
这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。
如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。
首先什么是玻尔兹曼机？
[图片上传失败...(image-d36b31-1519636788074)]
如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。
玻尔兹曼机和递归神经网络相比，区别体现在以下几点：
1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。
2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？
最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层
在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。
具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。
DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。
生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。
GAN一般由两个网络组成，生成模型网络，判别模型网络。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。
举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。
传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）
生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

⑻ 神经网络的全连接层

全连接层（fully connected layers，FC）在整个神经网络中起到“分类器”的作用。

如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层将学到的“分布式特征表示”映射到“样本标记空间”。

在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为h*w的全局卷积，h和w分别为前层卷积结果的高和宽。

由于全连接层的参数冗余（仅全连接层参数就可占整个网络参数80%左右），有些性能优异的网络模型如ResNet和GoogLeNet等均用全局平均池化（global average pooling，GAP）取代全连接层，来融合学到的深度特征，最后仍用softmax等损失函数作为网络目标函数来指导学习过程。

⑼ 神经网络模型-27种神经网络模型们的简介

【1】Perceptron(P) 感知机

【1】感知机

感知机是我们知道的最简单和最古老的神经元模型，它接收一些输入，然后把它们加总，通过激活函数并传递到输出层。

【2】Feed Forward(FF)前馈神经网络

【2】前馈神经网络

前馈神经网络（FF），这也是一个很古老的方法——这种方法起源于50年代。它的工作原理通常遵循以下规则：

1.所有节点都完全连接

2.激活从输入层流向输出，无回环

3.输入和输出之间有一层（隐含层）

在大多数情况下，这种类型的网络使用反向传播方法进行训练。

【3】Radial Basis Network(RBF) RBF神经网络

【3】RBF神经网络

RBF 神经网络实际上是激活函数是径向基函数而非逻辑函数的FF前馈神经网络（FF）。两者之间有什么区别呢？

逻辑函数--- 将某个任意值映射到[0 ,... 1]范围内来，回答“是或否”问题。适用于分类决策系统，但不适用于连续变量。

相反，径向基函数--- 能显示“我们距离目标有多远”。这完美适用于函数逼近和机器控制（例如作为PID控制器的替代）。

简而言之，RBF神经网络其实就是，具有不同激活函数和应用方向的前馈网络。

【4】Deep Feed Forword(DFF)深度前馈神经网络

【4】DFF深度前馈神经网络

DFF深度前馈神经网络在90年代初期开启了深度学习的潘多拉盒子。这些依然是前馈神经网络，但有不止一个隐含层。那么，它到底有什么特殊性？

在训练传统的前馈神经网络时，我们只向上一层传递了少量的误差信息。由于堆叠更多的层次导致训练时间的指数增长，使得深度前馈神经网络非常不实用。直到00年代初，我们开发了一系列有效的训练深度前馈神经网络的方法; 现在它们构成了现代机器学习系统的核心，能实现前馈神经网络的功能，但效果远高于此。

【5】Recurrent Neural Network(RNN) 递归神经网络

【5】RNN递归神经网络

RNN递归神经网络引入不同类型的神经元——递归神经元。这种类型的第一个网络被称为约旦网络（Jordan Network），在网络中每个隐含神经元会收到它自己的在固定延迟（一次或多次迭代）后的输出。除此之外，它与普通的模糊神经网络非常相似。

当然，它有许多变化 — 如传递状态到输入节点，可变延迟等，但主要思想保持不变。这种类型的神经网络主要被使用在上下文很重要的时候——即过去的迭代结果和样本产生的决策会对当前产生影响。最常见的上下文的例子是文本——一个单词只能在前面的单词或句子的上下文中进行分析。

【6】Long/Short Term Memory (LSTM) 长短时记忆网络

【6】LSTM长短时记忆网络

LSTM长短时记忆网络引入了一个存储单元，一个特殊的单元，当数据有时间间隔（或滞后）时可以处理数据。递归神经网络可以通过“记住”前十个词来处理文本，LSTM长短时记忆网络可以通过“记住”许多帧之前发生的事情处理视频帧。 LSTM网络也广泛用于写作和语音识别。

存储单元实际上由一些元素组成，称为门，它们是递归性的，并控制信息如何被记住和遗忘。

【7】Gated Recurrent Unit (GRU)

【7】GRU是具有不同门的LSTM

GRU是具有不同门的LSTM。

听起来很简单，但缺少输出门可以更容易基于具体输入重复多次相同的输出，目前此模型在声音（音乐）和语音合成中使用得最多。

实际上的组合虽然有点不同：但是所有的LSTM门都被组合成所谓的更新门(Update Gate)，并且复位门(Reset Gate)与输入密切相关。

它们比LSTM消耗资源少，但几乎有相同的效果。

【8】Auto Encoder (AE) 自动编码器

【8】AE自动编码器

Autoencoders自动编码器用于分类，聚类和特征压缩。

当您训练前馈(FF)神经网络进行分类时，您主要必须在Y类别中提供X个示例，并且期望Y个输出单元格中的一个被激活。这被称为“监督学习”。

另一方面，自动编码器可以在没有监督的情况下进行训练。它们的结构 - 当隐藏单元数量小于输入单元数量（并且输出单元数量等于输入单元数）时，并且当自动编码器被训练时输出尽可能接近输入的方式，强制自动编码器泛化数据并搜索常见模式。

【9】Variational AE (VAE) 变分自编码器

【9】VAE变分自编码器

变分自编码器，与一般自编码器相比，它压缩的是概率，而不是特征。

尽管如此简单的改变，但是一般自编码器只能回答当“我们如何归纳数据？”的问题时，变分自编码器回答了“两件事情之间的联系有多强大？我们应该在两件事情之间分配误差还是它们完全独立的？”的问题。

【10】Denoising AE (DAE) 降噪自动编码器

【10】DAE降噪自动编码器

虽然自动编码器很酷，但它们有时找不到最鲁棒的特征，而只是适应输入数据（实际上是过拟合的一个例子）。

降噪自动编码器（DAE）在输入单元上增加了一些噪声 - 通过随机位来改变数据，随机切换输入中的位，等等。通过这样做，一个强制降噪自动编码器从一个有点嘈杂的输入重构输出，使其更加通用，强制选择更常见的特征。

【11】Sparse AE (SAE) 稀疏自编码器

【11】SAE稀疏自编码器

稀疏自编码器（SAE）是另外一个有时候可以抽离出数据中一些隐藏分组样试的自动编码的形式。结构和AE是一样的，但隐藏单元的数量大于输入或输出单元的数量。

【12】Markov Chain (MC) 马尔科夫链

【12】Markov Chain (MC) 马尔科夫链

马尔可夫链（Markov Chain, MC）是一个比较老的图表概念了，它的每一个端点都存在一种可能性。过去，我们用它来搭建像“在单词hello之后有0.0053％的概率会出现dear，有0.03551%的概率出现you”这样的文本结构。

这些马尔科夫链并不是典型的神经网络，它可以被用作基于概率的分类（像贝叶斯过滤），用于聚类（对某些类别而言），也被用作有限状态机。

【13】Hopfield Network (HN) 霍普菲尔网络

【13】HN霍普菲尔网络

霍普菲尔网络（HN）对一套有限的样本进行训练，所以它们用相同的样本对已知样本作出反应。

在训练前，每一个样本都作为输入样本，在训练之中作为隐藏样本，使用过之后被用作输出样本。

在HN试着重构受训样本的时候，他们可以用于给输入值降噪和修复输入。如果给出一半图片或数列用来学习，它们可以反馈全部样本。

【14】Boltzmann Machine (BM) 波尔滋曼机

【14】 BM 波尔滋曼机

波尔滋曼机（BM）和HN非常相像，有些单元被标记为输入同时也是隐藏单元。在隐藏单元更新其状态时，输入单元就变成了输出单元。（在训练时，BM和HN一个一个的更新单元，而非并行）。

这是第一个成功保留模拟退火方法的网络拓扑。

多层叠的波尔滋曼机可以用于所谓的深度信念网络，深度信念网络可以用作特征检测和抽取。

【15】Restricted BM (RBM) 限制型波尔滋曼机

【15】 RBM 限制型波尔滋曼机

在结构上，限制型波尔滋曼机（RBM）和BM很相似，但由于受限RBM被允许像FF一样用反向传播来训练（唯一的不同的是在反向传播经过数据之前RBM会经过一次输入层）。

【16】Deep Belief Network (DBN) 深度信念网络

【16】DBN 深度信念网络

像之前提到的那样，深度信念网络（DBN）实际上是许多波尔滋曼机（被VAE包围）。他们能被连在一起（在一个神经网络训练另一个的时候），并且可以用已经学习过的样式来生成数据。

【17】Deep Convolutional Network (DCN) 深度卷积网络

【17】 DCN 深度卷积网络

当今，深度卷积网络（DCN）是人工神经网络之星。它具有卷积单元（或者池化层）和内核，每一种都用以不同目的。

卷积核事实上用来处理输入的数据，池化层是用来简化它们（大多数情况是用非线性方程，比如max），来减少不必要的特征。

他们通常被用来做图像识别，它们在图片的一小部分上运行（大约20x20像素）。输入窗口一个像素一个像素的沿着图像滑动。然后数据流向卷积层，卷积层形成一个漏斗（压缩被识别的特征）。从图像识别来讲，第一层识别梯度，第二层识别线，第三层识别形状，以此类推，直到特定的物体那一级。DFF通常被接在卷积层的末端方便未来的数据处理。

【18】Deconvolutional Network (DN) 去卷积网络

【18】 DN 去卷积网络

去卷积网络（DN）是将DCN颠倒过来。DN能在获取猫的图片之后生成像（狗：0，蜥蜴：0，马：0，猫：1）一样的向量。DNC能在得到这个向量之后，能画出一只猫。

【19】Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷积反转图像网络

【19】 DCIGN 深度卷积反转图像网络

深度卷积反转图像网络（DCIGN），长得像DCN和DN粘在一起，但也不完全是这样。

事实上，它是一个自动编码器，DCN和DN并不是作为两个分开的网络，而是承载网路输入和输出的间隔区。大多数这种神经网络可以被用作图像处理，并且可以处理他们以前没有被训练过的图像。由于其抽象化的水平很高，这些网络可以用于将某个事物从一张图片中移除，重画，或者像大名鼎鼎的CycleGAN一样将一匹马换成一个斑马。

【20】Generative Adversarial Network (GAN) 生成对抗网络

【20】 GAN 生成对抗网络

生成对抗网络（GAN）代表了有生成器和分辨器组成的双网络大家族。它们一直在相互伤害——生成器试着生成一些数据，而分辨器接收样本数据后试着分辨出哪些是样本，哪些是生成的。只要你能够保持两种神经网络训练之间的平衡，在不断的进化中，这种神经网络可以生成实际图像。

【21】Liquid State Machine (LSM) 液体状态机

【21】 LSM 液体状态机

液体状态机（LSM）是一种稀疏的，激活函数被阈值代替了的（并不是全部相连的）神经网络。只有达到阈值的时候，单元格从连续的样本和释放出来的输出中积累价值信息，并再次将内部的副本设为零。

这种想法来自于人脑，这些神经网络被广泛的应用于计算机视觉，语音识别系统，但目前还没有重大突破。

【22】Extreme Learning Machine (ELM) 极端学习机

【22】ELM 极端学习机

极端学习机（ELM）是通过产生稀疏的随机连接的隐藏层来减少FF网络背后的复杂性。它们需要用到更少计算机的能量，实际的效率很大程度上取决于任务和数据。

【23】Echo State Network (ESN) 回声状态网络

【23】 ESN 回声状态网络

回声状态网络（ESN）是重复网络的细分种类。数据会经过输入端，如果被监测到进行了多次迭代（请允许重复网路的特征乱入一下），只有在隐藏层之间的权重会在此之后更新。

据我所知，除了多个理论基准之外，我不知道这种类型的有什么实际应用。。。。。。。

【24】Deep Resial Network (DRN) 深度残差网络

【24】 DRN 深度残差网络

深度残差网络（DRN）是有些输入值的部分会传递到下一层。这一特点可以让它可以做到很深的层级（达到300层），但事实上它们是一种没有明确延时的RNN。

【25】Kohonen Network (KN) Kohonen神经网络

【25】 Kohonen神经网络

Kohonen神经网络（KN）引入了“单元格距离”的特征。大多数情况下用于分类，这种网络试着调整它们的单元格使其对某种特定的输入作出最可能的反应。当一些单元格更新了，离他们最近的单元格也会更新。

像SVM一样，这些网络总被认为不是“真正”的神经网络。

【26】Support Vector Machine (SVM)

【26】 SVM 支持向量机

支持向量机（SVM）用于二元分类工作，无论这个网络处理多少维度或输入，结果都会是“是”或“否”。

SVM不是所有情况下都被叫做神经网络。

【27】Neural Turing Machine (NTM) 神经图灵机

【27】NTM 神经图灵机

神经网络像是黑箱——我们可以训练它们，得到结果，增强它们，但实际的决定路径大多数我们都是不可见的。

神经图灵机（NTM）就是在尝试解决这个问题——它是一个提取出记忆单元之后的FF。一些作者也说它是一个抽象版的LSTM。

记忆是被内容编址的，这个网络可以基于现状读取记忆，编写记忆，也代表了图灵完备神经网络。

⑽ 什么是全连接神经网络怎么理解“全连接”

1、全连接神经网络解析：对n-1层和n层而言，n-1层的任意一个节点，都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权。

2、全连接的神经网络示意图：

3、“全连接”是一种不错的模式，但是网络很大的时候，训练速度回很慢。部分连接就是认为的切断某两个节点直接的连接，这样训练时计算量大大减小。

阅读全文

与全连接的深度前馈神经网络相关的资料

热点内容

学校电脑房网络连接发布：2025-07-19 04:44:26 浏览：533

电信三方网络优化是什么工作发布：2025-07-19 03:56:45 浏览：482

怎么显示打印机网络上的资源发布：2025-07-19 03:24:58 浏览：534

无网络安全驱动发布：2025-07-19 03:08:14 浏览：382

深圳智尔网络科技路由器发布：2025-07-19 02:55:18 浏览：449

工业路由器网络质量一般发布：2025-07-19 02:09:02 浏览：654

刑事科学技术网络安全哪个专业好发布：2025-07-19 01:46:44 浏览：651

网络工程和前端哪个好发布：2025-07-19 01:45:34 浏览：796

7p还原网络设置耗电很快发布：2025-07-19 01:36:14 浏览：423

电信移动网络的接入点发布：2025-07-19 01:31:58 浏览：622

武隆区旅游网络营销发布：2025-07-19 01:10:57 浏览：743

加载东西显示网络信号弱原因发布：2025-07-19 00:08:54 浏览：965

重庆合川建材行业网络营销有哪些发布：2025-07-18 23:35:18 浏览：661

如何退出网络教育发布：2025-07-18 23:09:24 浏览：155

世界上出现最早计算机网络是发布：2025-07-18 23:09:23 浏览：870

2g网络说哪个明星发布：2025-07-18 23:02:45 浏览：492

北大青鸟网络营销师发布：2025-07-18 23:02:44 浏览：90

tplink路由器的默认wifi网络发布：2025-07-18 22:22:04 浏览：230

移动光猫如何设置千兆网络发布：2025-07-18 22:04:06 浏览：83

无线网络路由器亮红灯怎么回事发布：2025-07-18 21:59:07 浏览：128

导航:首页 > 网络连接 > 全连接的深度前馈神经网络

全连接的深度前馈神经网络

与全连接的深度前馈神经网络相关的资料

友情链接