近似动态规划方法及其在交通中的应用(11)

发布时间:2021-06-06

北京交通大学博士学位论文

HDP(HeuristicDynamicProgramming,估计,)、DHP(Dua!HeuristicProgramming,估计0J/0x1和GDHP(GlobalizedDualHeuristicProgramming,同时估计J和甜/苏。上述各种算法中,Critic的输入均为系统状态向量x(k);而如果将控制向量u(k1纳入C,ritic输入端,则构成动作依赖(Action.Dependent,AD)的ADP方法,分别称为ADHDP(Action-DependentHeuristicDynamicProgramming),ADDHP(Action—DependentDualHeuristicProgramming),ADGDHP(Acfion—DependentGlobalizedDualHeuristicProgramming)1851。

1.3.1HDP和ADHDP

HDP和它的AD形式均包含一个Critic模块,以估计动态规划中的性能指标:

J(t)=∑广U(t+k)(1.7)

k=0

其中Y是有限维问题中的折扣因子,它的取值71Z[]是0M;u( )函数被称为效用函数或者瞬时效用函数。Critic模块在网络中的作用是随着时间推进设法将跟踪误差Il局||降到最小。Critic模块是实时应用中的关键,需要优先训练。

㈣2手和(1.8)

El(t)=,[】,(f)]一y,【】,(f十1)]一u(o(1.9)

公式中,Y(t)代表控制对象一个可观察到的向量R(t),A(t)代表系统控制向量。网络训练构造图如图1.2所示。其中,图1.2(a)为Critic模块训练结构图,图1.2(b)为Action模块训练结构图。

CriticJ(t+1、_册斑P0)

』y尺嗥【}1i-HA.(,t∥,

一弋…一

卜\

A(t,ion

\\

图1.2网络训练结构图[141

Fig.1.2NetworkadaptioninADHDP/HDP6

近似动态规划方法及其在交通中的应用(11).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219