近似动态规划方法及其在交通中的应用(11)
发布时间:2021-06-06
发布时间:2021-06-06
北京交通大学博士学位论文
HDP(HeuristicDynamicProgramming,估计,)、DHP(Dua!HeuristicProgramming,估计0J/0x1和GDHP(GlobalizedDualHeuristicProgramming,同时估计J和甜/苏。上述各种算法中,Critic的输入均为系统状态向量x(k);而如果将控制向量u(k1纳入C,ritic输入端,则构成动作依赖(Action.Dependent,AD)的ADP方法,分别称为ADHDP(Action-DependentHeuristicDynamicProgramming),ADDHP(Action—DependentDualHeuristicProgramming),ADGDHP(Acfion—DependentGlobalizedDualHeuristicProgramming)1851。
1.3.1HDP和ADHDP
HDP和它的AD形式均包含一个Critic模块,以估计动态规划中的性能指标:
∞
J(t)=∑广U(t+k)(1.7)
k=0
其中Y是有限维问题中的折扣因子,它的取值71Z[]是0M;u( )函数被称为效用函数或者瞬时效用函数。Critic模块在网络中的作用是随着时间推进设法将跟踪误差Il局||降到最小。Critic模块是实时应用中的关键,需要优先训练。
㈣2手和(1.8)
El(t)=,[】,(f)]一y,【】,(f十1)]一u(o(1.9)
公式中,Y(t)代表控制对象一个可观察到的向量R(t),A(t)代表系统控制向量。网络训练构造图如图1.2所示。其中,图1.2(a)为Critic模块训练结构图,图1.2(b)为Action模块训练结构图。
CriticJ(t+1、_册斑P0)
』y尺嗥【}1i-HA.(,t∥,
一弋…一
卜\
A(t,ion
\\
≮
图1.2网络训练结构图[141
Fig.1.2NetworkadaptioninADHDP/HDP6
上一篇:三(2)班校园安全日记