MADDPG提出了一种策略集合的思想,即每个智能体的策略由一个包含多个子策略的集合构成,在每个训练episode中只使用其中的一个子策略。通过最大化策略集合的整体奖励,可以使每个智能体更好地适应不同的对手策略,并提高其对抗性能。


原文地址: https://www.cveoy.top/t/topic/fdvV 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录