复写:在多智能体环境中传统的强化学习算法面临一个主要问题。由于每个智能体都在不断地学习和改进自己的策略因此从每个智能体的角度来看环境是动态的、不稳定的这与传统强化学习的收敛条件不符合。在一定程度上仅改变智能体自身的策略并不能使其适应动态不稳定的环境。
在多智能体环境中,传统的强化学习算法存在一个主要问题:由于每个智能体都在不断地学习和改进自己的策略,环境从每个智能体的角度来看是动态的、不稳定的,这与传统强化学习的收敛条件不相符。因此,仅仅改变智能体自身的策略并不能使其适应动态不稳定的环境。
原文地址: https://www.cveoy.top/t/topic/fdnc 著作权归作者所有。请勿转载和采集!