BP神经网络的基本原理-一看就懂

时间：2025-04-24

5.4 神经网络的基本原理

（）网络是1986年由和为首的科学家小组提

出，是一种按误差逆传播算法训练的多层前馈网

络，是目前应用最广泛的神经网络模型之一。网

络能学习和存贮大量的输入-输出模式映射关

系，而无需事前揭示描述这种映射关系的数学方

程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。神经网络模型拓扑结构包括输入层（）、隐层( )和输出层( )（如图5.2所示）。

5.4.1 神经元

图5.3给出了第j个基本神经元（节点），它只模仿了生物神经元所具有的三个最基本也是最重要的功能：加权、求和与转移。其中x1、x2……分别代表来自神经元1、2…i…n的输入；1、2……则分别表示神经元1、2…i…n与第j个神经元的连接强度，即权值；为阈值；f(·)为传递函数；为第j个神经元的输出。

第j 个神经元的净输入值为：

（5.12）

1 / 16

其中：

若视，，即令及包括及，则

于是节点j 的净输入可表示为：

（5.13）净输入通过传递函数（）f (·)后，便得到第j个神经元的输出:

（5.14）式中f(·)是单调上升函数，而且必须是有界函数，因为细胞传递的信号不可能无限增加，必有一最大值。

5.4.2 网络

算法由数据流的前向计算（正向传播）和误差信号的反向传播两个过程构成。正向传播时，传播方向为输入层→隐层→输出层，每层神经元的

2 / 16

状态只影响下一层神经元。若在输出层得不到期望的输出，则转向误差信号的反向传播流程。通过这两个过程的交替进行，在权向量空间执行误差函数梯度下降策略，动态迭代搜索一组权向量，使网络误差函数达到最小值，从而完成信息提取和记忆过程。

5.4.2.1 正向传播

设网络的输入层有n个节点，隐层有q个节点，输出层有m个节点，输入层与隐层之间的权值为，隐层与输出层之间的权值为，如图5.4所示。隐层的传递函数为f1(·)，输出层的传递函数为f2(·)，则隐层节点的输出为（将阈值写入求和项中）：

1,2,……

q （5.15）输出层节点的输出为：

1,2,……

m （5.16）至此网络就完成了n维空间向量对m维空间的近似映射。

3 / 16

5.4.2.2 反向传播

1) 定义误差函数

输入个学习样本，用来表示。第个样本输入到网络后得到输出（1,2,…m）。采用平方型误差函数，于是得到第p个样本的误差：

（5.17）

式中：为期望输出。

对于个样本，全局误差为：

（5.18）2）输出层权值的变化

采用累计误差算法调整，使全局误差变小，即

（5.19）式中：—学习率

定义误差信号为：

（5.20）

4 / 16

其中第一项：

（5.21）第二项：

（5.

22）是输出层传递函数的偏微分。

于是：

（5.23）由链定理得：

（5.24）于是输出层各神经元的权值调整公式为：

（5.25）3）隐层权值的变化

（5.26）

5 / 16

定义误差信号为：

（5.27）其中第一项：

（5.28）依链定理有：

（5.29）第二项：

（5.

30）是隐层传递函数的偏微分。

于是：

（5.31）由链定理得：

（5.32）

6 / 16

从而得到隐层各神经元的权值调整公式为：

（5.33）5.4.3 算法的改进

算法理论具有依据可靠、推导过程严谨、精度较高、通用性较好等优点，但标准算法存在以下缺点：收敛速度缓慢；容易陷入局部极小值；难以确定隐层数和隐层节点个数。在实际应用中，算法很难胜任，因此出现了很多改进算法。

1）利用动量法改进算法

标准算法实质上是一种简单的最速下降静态寻优方法，在修正W(K)时，只按照第K步的负梯度方向进行修正，而没有考虑到以前积累的经验，即以前时刻的梯度方向，从而常常使学习过程发生振荡，收敛缓慢。动量法权值调整算法的具体做法是：将上一次权值调整量的一部分迭加到按本次误差计算所得的权值调整量上，作为本次的实际权值调整量，即：

（5.34）其中：α为动量系数，通常0＜α＜0.9；η—学习率，范围在0.001～10之间。这种方法所加的动量因子实际上相当于阻尼项，它减小了学习过程中的振荡趋势，从而改善了收敛性。动量法降低了网络对于误差曲面局部细节的敏感性，有效的抑制了网络陷入局部极小。

2）自适应调整学习速率

7 / 16

择不当，学习率选得太小，收敛太慢；学习率选得

太大，则有可能修正过头，导致振荡甚至发散。可

采用图5.5所示的自适应方法调整学习率。

调整的基本指导思想是：在学习收敛的情况下，增大η，以缩短学习时间；当η偏大致使不能收敛时，要及时减小η，直到收敛为止。

3）动量-自适应学习速率调整算法

采用动量法时，算法可以找到更优的解；采用自适应学习速率法时，算法可以缩短训练时间。将以上两种方法结合起来，就得到动量-自适应学习速率调整算法。

4）学习规则

（）算法比前述几种使用梯度下降法的算法要快得多，但对于复杂问题，

这种方法需要相当大的存储空间。()优化方法的权值调整率选为: