复写：具体来说DDPG的Critic当前网络、Critic目标网络和DDQN的当前Q网络、目标Q网络有相似的功能定位。DDPG的Actor策略网络不太相同下一状态S采样的动作A会被放到Actor目标网络完成。基于经验回放池和目标Actor网络提供的S和ACritic目标网络计算目标Q值的一部分这部分由于是评估因此还是放到Critic目标网络完成。当Critic目标网络计算完整个目标Q值后Criti

日期: 2026-12-27

标签: 科技

DDPG中的Critic当前网络、Critic目标网络以及DDQN中的当前Q网络和目标Q网络在功能定位上有相似之处。然而，DDPG的Actor策略网络与之不同，其下一状态S'采样的动作A'会被传递到Actor目标网络中。通过经验回放池和目标Actor网络提供的S'和A'，Critic目标网络将计算目标Q值的一部分。由于这部分需要评估，因此仍然在Critic目标网络中进行。当Critic目标网络计算完整个目标Q值后，Critic当前网络将计算目标Q值并进行网络参数的更新。同时，Critic当前网络还会将网络参数复制到Critic目标网络上。Actor当前网络也将根据Critic当前网络计算出的目标Q值进行网络参数的更新。最后，Actor当前网络还会定期将网络参数复制到Actor目标网络上。

原文地址: https://www.cveoy.top/t/topic/fdhV 著作权归作者所有。请勿转载和采集!