近似动态规划方法及其在交通中的应用(11)

时间：2026-04-22

北京交通大学博士学位论文

ＨＤＰ（ＨｅｕｒｉｓｔｉｃＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ，估计，）、ＤＨＰ（Ｄｕａ！ＨｅｕｒｉｓｔｉｃＰｒｏｇｒａｍｍｉｎｇ，估计０Ｊ／０ｘ１和ＧＤＨＰ（ＧｌｏｂａｌｉｚｅｄＤｕａｌＨｅｕｒｉｓｔｉｃＰｒｏｇｒａｍｍｉｎｇ，同时估计Ｊ和甜／苏。上述各种算法中，Ｃｒｉｔｉｃ的输入均为系统状态向量ｘ（ｋ）；而如果将控制向量ｕ（ｋ１纳入Ｃ，ｒｉｔｉｃ输入端，则构成动作依赖（Ａｃｔｉｏｎ．Ｄｅｐｅｎｄｅｎｔ，ＡＤ）的ＡＤＰ方法，分别称为ＡＤＨＤＰ（Ａｃｔｉｏｎ－ＤｅｐｅｎｄｅｎｔＨｅｕｒｉｓｔｉｃＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ），ＡＤＤＨＰ（Ａｃｔｉｏｎ—ＤｅｐｅｎｄｅｎｔＤｕａｌＨｅｕｒｉｓｔｉｃＰｒｏｇｒａｍｍｉｎｇ），ＡＤＧＤＨＰ（Ａｃｆｉｏｎ—ＤｅｐｅｎｄｅｎｔＧｌｏｂａｌｉｚｅｄＤｕａｌＨｅｕｒｉｓｔｉｃＰｒｏｇｒａｍｍｉｎｇ）１８５１。

１．３．１ＨＤＰ和ＡＤＨＤＰ

ＨＤＰ和它的ＡＤ形式均包含一个Ｃｒｉｔｉｃ模块，以估计动态规划中的性能指标：

∞

Ｊ（ｔ）＝∑广Ｕ（ｔ＋ｋ）（１．７）

ｋ＝０

其中Ｙ是有限维问题中的折扣因子，它的取值７１Ｚ［］是０Ｍ；ｕ（）函数被称为效用函数或者瞬时效用函数。Ｃｒｉｔｉｃ模块在网络中的作用是随着时间推进设法将跟踪误差Ｉｌ局｜｜降到最小。Ｃｒｉｔｉｃ模块是实时应用中的关键，需要优先训练。

㈣２手和（１．８）

Ｅｌ（ｔ）＝，［】，（ｆ）］一ｙ，【】，（ｆ十１）］一ｕ（ｏ（１．９）

公式中，Ｙ（ｔ）代表控制对象一个可观察到的向量Ｒ（ｔ），Ａ（ｔ）代表系统控制向量。网络训练构造图如图１．２所示。其中，图１．２（ａ）为Ｃｒｉｔｉｃ模块训练结构图，图１．２（ｂ）为Ａｃｔｉｏｎ模块训练结构图。

ＣｒｉｔｉｃＪ（ｔ＋１、＿册斑Ｐ０）

』ｙ尺嗥【｝１ｉ－ＨＡ．（，ｔ∥，

一弋…一