近似动态规划方法及其在交通中的应用(8)

时间：2026-04-23

１绪论

免每个阶段内针对所有状态和控制变量进行精确计算，在一定程度上避免经典动态规划“维数灾”问题，并能在给定的性能指标下获得次优（近似最优）策略。

近似动态规划方法的发展过程与强化学＞习（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｍｉｎｇ，简称ＲＬ）紧密相关。Ｓｋｉｎｎｅｒ是一位心理学家，他提出了奖励或惩罚（基本强化信号）决定动物（包括人）行为的著名思想，即强化学＞－ｊ（ＲＥ）。基于强化学习（ＲＬ）概念，人工智能先驱Ｎｅｗｅｌｌ等人设计了智能学习机。然而，他们的结果并不理想，原因在于强化学习ｆＲＬ）的机制过于简单，直到２０世纪８０年代，Ｗｉｄｒｏｗ最早提出了ＡＤＰ相关概念，他在控制问题中明确的提出了评价（ｃｒｉｔｉｃ）神经单元的概念【２】［３ｌ，初始只是作为强化学习ｆＲＬ）的拓展，随后得到了越来越多的关注，并在包括控制在内的各种决策优化领域得到了应用【４－６１。Ｂａｒｔｏ【７１和Ｗａｔｋｉｎｓ【８】分别在各自早期的著作中阐述离散条件下评价模块（Ｃｒｉｔｉｃ）能ｊ－些问题，明确提出了利用控制信号来估计代价函数的思路。Ｗｅｒｂｏｓ【９】在前人研究成果的基础上，以评价模块估计，函数为出发点进行了更为深入的研究，提出了用评价模块估计，函数对状态量的导数，以及用评价模块同时估计，函数和其导数等多种方法，这使得ＡＤＰ方法脱离强化学习（ＲＥ），而成为一个相对独立的研究分支，也标志着ＡＤＰ思想的正式确立。

ＡＤＰ方法通过采用Ｃｒｉｔｉｃ模块估计系统性能指标或者其偏导数，从而指导Ａｃｔｉｏｎ模块学习，使其输出逼近传统动态规划方法的最优控制律，它具有时间上的正向性，而且避开了传统动态规划方法的“维数灾”问题１１０－１９ｌ。因此，该方法适用于复杂非线性系统的实时最优控制。在工程应用和理论研究中得到了广泛的关注，具有多种名称，比如“ＡｄａｐｔｉｖｅＣｒｉｔｉｃＤｅｓｉｇｎ”担小删Ｊ、“ＡｐｐｒｏｘｉｍａｔｅＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ’’［３０－３９］、“ＡｓｙｍｐｔｏｔｉｃＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ”［４０１、“Ｎｅｕｒｏ－ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ”［４１－４８］等。

目前，关于ＡＤＰ的研究可归纳为理论研究和应用研究两个方面：理论研究主要集中在稳定性、最优性、收敛性以及定性分析等方面［４０，４９彤】；应用研究主要集中在电力系统［５４，５５】、飞行器控制【５６－５８］、通信网络［［５９－６１１、机车控锘１］［２８，３１，６２］等领域，其他一些特殊应用领域见表１．１：

近似动态规划方法及其在交通中的应用(8).doc 将本文的Word文档下载到电脑

下载这篇word文档