总结这段话的结论：为了应对上述问题MADDPG提出了一种策略集合的思想。具体地第i个智能体的策略μ_i由一个包含K个子策略的集合构成在每个训练episode中只使用其中的一个子策略。对于每个智能体我们最大化其策略集合的整体奖励。这种方法可以使每个智能体更好地适应不同的对手策略并提高其对抗性能。

MADDPG提出了一种策略集合的思想，即每个智能体的策略由一个包含多个子策略的集合构成，在每个训练episode中只使用其中的一个子策略。通过最大化策略集合的整体奖励，可以使每个智能体更好地适应不同的对手策略，并提高其对抗性能。

原文地址: https://www.cveoy.top/t/topic/fdvV 著作权归作者所有。请勿转载和采集!