近似动态规划方法及其在交通中的应用(12)

时间：2026-01-26

１绪论

图中的虚线表示Ｃｒｉｔｉｃ模块Ａｃｔｉｏｎ模块进行权值调整时的误差反传通道。和其中，Ｃｒｉｔｉｃ模块权值更新的表达式如下所示：

△％一妒∽ｈ堆”１）］＿叭ｍ翟

练目标为最小化系统性能指标，故其权值调整可采用如下方式：（１．１０）其中，形为Ａｃｔｉｏｎ模块权值向量，矾为其学习率。通过Ｃｒｉｔｉｃ模块权值的不断调整，我们寻找最优性能指标，（最大或者最小），使得全部Ｕ（．）最优。为了达到这样的效果，我们建立如图１．２（ｂ）所示的连接。根据动态规划最优性原理，它的训

ＡＷ：一７７一ｏＪ（ｔ）：一刀皇业一ＯＪ（ｔ）ａ。ａａＷ。ａａＷ０Ａ（ｆ、（１．１１）

ａａ、７

其中，呢为Ａｃｔｉｏｎ权值向量，仉为其学习率。

在ＨＤＰ中，Ｍｏｄｅｌ模块作为连通Ａｃｔｉｏｎ模块和Ｃｒｉｔｉｃ模块的通道，如果控制系统的解析形式已知，可以直接作为Ｍｏｄｅｌ使用，如果控制系统未知或已知却不可微，可以使用一个可微多层前馈神经网络近似替代。当Ｃｒｉｔｉｃ输入端包含系统状态和控制向量时，就构成了ＨＤＰ的ＡＤ形式——ＡＤＨＤＰ。

１．３．２ＤＨＰ和ＡＤＤＨＰ

ＤＨＰ和它的ＡＤ形式，通过Ｃｒｉｔｉｃ去估计函数，关于向量】，（ｆ）的偏导数。Ｃｒｉｔｉｃ随着时间变化最小化跟踪误差ＩＩ岛Ｉ｜：

＆忙∑ｔ乞丁∽乞∽

式子当中，（１．１２）

掣，＝篙一ｙ雩铲一鬻

其中，虚线表示误差信号反传通道。ｎ㈣在式（１．１３）巾，ａ（）／ａｒ（ｏ是一个关于变量ｙ（ｆ）的偏导数。Ｃｒｉｔｉｃ的训练要比在ＨＤＰ中更加复杂，因为我们要考虑到图１．３中所示的所有相关路径的反向传播，

近似动态规划方法及其在交通中的应用(12).doc 将本文的Word文档下载到电脑

下载这篇word文档