DDPG中的Critic当前网络、Critic目标网络以及DDQN中的当前Q网络和目标Q网络在功能定位上有相似之处。然而,DDPG的Actor策略网络与之不同,其下一状态S'采样的动作A'会被传递到Actor目标网络中。通过经验回放池和目标Actor网络提供的S'和A',Critic目标网络将计算目标Q值的一部分。由于这部分需要评估,因此仍然在Critic目标网络中进行。当Critic目标网络计算完整个目标Q值后,Critic当前网络将计算目标Q值并进行网络参数的更新。同时,Critic当前网络还会将网络参数复制到Critic目标网络上。Actor当前网络也将根据Critic当前网络计算出的目标Q值进行网络参数的更新。最后,Actor当前网络还会定期将网络参数复制到Actor目标网络上。


原文地址: https://www.cveoy.top/t/topic/fdhV 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录