本研究第3章提出了一种基于传统强化学习算法-近端策略优化算法(PPO2)的多智能体避碰决策方法。该方法通过对实验场景和奖励函数的合理设计,构建了适用于传统强化学习算法的部分可观测马尔科夫环境,并对多智能体避碰问题进行了建模。使用PPO2算法对多智能体进行训练,并与软行为评论家算法(SAC)、深度确定性策略梯度算法(DDPG)以及研究中使用的其他方法进行了对比。实验结果表明,本研究提出的基于PPO2的多智能体避碰决策方法能够实现多智能体间的自主避碰,并且在第3章的实验场景下,其避碰成功率比SAC、DDPG算法更高。

基于PPO2算法的多智能体避碰决策方法研究

原文地址: https://www.cveoy.top/t/topic/mZGd 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录