近似动态规划方法及其在交通中的应用(12)

发布时间:2021-06-06

1绪论

图中的虚线表示Critic模块Action模块进行权值调整时的误差反传通道。和其中,Critic模块权值更新的表达式如下所示:

△%一妒∽h堆”1)]_叭m翟

练目标为最小化系统性能指标,故其权值调整可采用如下方式:(1.10)其中,形为Action模块权值向量,矾为其学习率。通过Critic模块权值的不断调整,我们寻找最优性能指标,(最大或者最小),使得全部U(.)最优。为了达到这样的效果,我们建立如图1.2(b)所示的连接。根据动态规划最优性原理,它的训

AW:一77一oJ(t):一刀皇业一OJ(t)a。aaW。aaW0A(f、(1.11)

aa、7

其中,呢为Action权值向量,仉为其学习率。

在HDP中,Model模块作为连通Action模块和Critic模块的通道,如果控制系统的解析形式已知,可以直接作为Model使用,如果控制系统未知或已知却不可微,可以使用一个可微多层前馈神经网络近似替代。当Critic输入端包含系统状态和控制向量时,就构成了HDP的AD形式——ADHDP。

1.3.2DHP和ADDHP

DHP和它的AD形式,通过Critic去估计函数,关于向量】,(f)的偏导数。Critic随着时间变化最小化跟踪误差II岛I|:

&忙∑t乞丁∽乞∽

式子当中,(1.12)

掣,=篙一y雩铲一鬻

其中,虚线表示误差信号反传通道。n㈣在式(1.13)巾,a( )/ar(o是一个关于变量y(f)的偏导数。Critic的训练要比在HDP中更加复杂,因为我们要考虑到图1.3中所示的所有相关路径的反向传播,

近似动态规划方法及其在交通中的应用(12).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219