深度神经网络障眼法（三）

admin

0
文章

0
评论

2023-11-30 10:24:08 AnQuanKeInfo 来源：ZONE.CI 全球网 0 阅读模式

在上一篇文章中，我们探讨了如何将输入和输出表示为向量，以及一个训练好的深度神经网络，是如何根据一张照片来判断其中是不是一只猫的，也就是推理过程。接下来，我们开始进入另一个话题，即神经网络是如何训练的？

为此，我们需要明确两件事情。第一件事是，训练啥？第二件使其，咋训练？好了，我们下来讨论第一个问题。

训练啥？

首先，我们需要明确一件事情，那就是当我们说训练神经网络时，一般已经确定了以下事项：

选用哪种神经网络的架构？比如，选择的是卷积神经网络，还是循环神经网络，等等。
神经网络中含有几层？
每层中含有多少神经元？
各个层之间的神经元如何连接？
各个神经元使用什么样的激活函数？

如您所见，既然这么多因素都已经确定下来了，那么，还有哪些需要我们进行磨合的呢？那就是激活函数的参数，包括两部分：

权重w
偏置项b

图1 训练网络时需要调整的权重w和偏置项b

为了突出显示需要调整的这两部分，我们可以把我们的函数表达式更新为：

其中，Θ表示神经网络所需的所有参数，即权重和偏置项。也就是说，用于表示神经网络的函数f的输入内容，不仅需要照片本身，而且还需要神经网络的参数。

到目前为止，我们介绍了训练神经网络时，到底要训练哪些内容，即权重和偏置项。那么，接下来我们再来说说如何训练它们。

如何训练？

我们已经明确了训练网络的目标，那就是找到合适的参数。那么，如何寻找这些合适的参数呢？众所周知，做事情的方式有两种，一种是一步到位，另一种是循序渐进。而训练网络参数的方式，就是属于后者。

当然，训练神经网络的思路并不复杂，比如，以监督式训练为例，首先给权重和偏置项（Θ）随机赋值，然后，拿一个训练样本（如一张照片）喂给神经网络，这时，我们就得到一个输出向量。接下来，我们可以分析输出结果与预期结果之前的差异了。通常情况下，我们会用成本函数来衡量参数的表现到底有多么“烂”，其表达式如下所示：

或者：

其中，C表示成本函数；表示神经网络的输出结果；表示预期的输出结果；x表示输入的训练样本；x表示神经网络的参数，Θ 即权重与偏移项。

成本函数的值越大，说明参数Θ 该值越小，说明参数的表现越好。所以，如果成本函数的值大于某个阈值的话，我们就需要对神经网络的参数进行相应的修改；重复该过程，直到找到令成本函数的值低于特定阈值的参数为止。当然，我们不可能每训练一个样本就调整一次参数，因为这样太过麻烦了；相反，我们可以采取其他方式，比如训练一批样本后调整一次参数，等等。

前面说过，成本函数本质上就是衡量参数的表现到底有多么“烂”的，但是，它到底是怎么衡量的呢？实际上，这里可用的方法也很多，比如，常见的一种方法是先求预期输出与实际输出之差，然后，再取平方。这样的话，实际输出与预期输出之间的差别越大，成本函数的输出也越大，并且这种“大”是非线性的，因为进行了平方运算——换句话说，这时的参数将会遭受更大的惩罚。

下面是单个训练样本的成本计算公式：