基于PPO2算法的多智能体避碰决策方法研究

本研究第3章提出了一种基于传统强化学习算法-近端策略优化算法（PPO2）的多智能体避碰决策方法。该方法通过对实验场景和奖励函数的合理设计，构建了适用于传统强化学习算法的部分可观测马尔科夫环境，并对多智能体避碰问题进行了建模。使用PPO2算法对多智能体进行训练，并与软行为评论家算法（SAC）、深度确定性策略梯度算法（DDPG）以及研究中使用的其他方法进行了对比。实验结果表明，本研究提出的基于PPO2的多智能体避碰决策方法能够实现多智能体间的自主避碰，并且在第3章的实验场景下，其避碰成功率比SAC、DDPG算法更高。