基于深度强化学习的多智能体避碰方法研究

随着科技的不断进步，人工智能技术被广泛应用于解决复杂问题，其中多智能体系统是研究的重点和难点。在多智能体系统中，实现多智能体间的避碰是不可或缺的一个任务环节。然而，传统的多智能体避碰决策方法存在环境、智能体模型以及计算资源依赖性较强、扩展性较差等问题，难以适应复杂应用场景。

为了解决这些问题，本研究基于深度强化学习 (Deep Reinforcement Learning，DRL) 算法，结合实验场景，设计了合理的奖励函数，引导算法学习最优策略，提高了多智能体自主避碰的成功率。具体而言，本研究的内容和创新点如下：

第 3 章提出了一种基于传统强化学习算法 PPO2 的多智能体避碰方法。本方法搭建了适用于传统强化学习算法的部分可观测马尔科夫环境，并通过对实验任务场景、奖励函数的合理设计，对多智能体碰撞避免问题进行了建模。使用 PPO2 算法对多智能体进行训练，同时加入软行为评论家 (Soft Actor-Critic，SAC) 算法、深度确定性策略梯度 (Deep Deterministic Policy Gradient，DDPG) 算法与研究中使用的方法进行对比，实验结果表明本研究提出的基于 PPO2 的多智能体避碰方法能够实现多智能体间的自主避碰，在第 3 章实验场景下，相比 SAC、DDPG 算法避碰成功率更高。
第 4 章针对传统强化学习方法在处理现实复杂环境下的多智能体问题时，存在维度爆炸、计算复杂、避碰成功率大幅下降等问题，设计了一种基于多智能体深度确定性策略梯度算法 (Multi-agent Deep Deterministic Policy Gradient，MADDPG) 的多智能体避碰方法。同时，借鉴多智能体强化学习 (Multi-Agent Reinforcement Learning，MARL) 的思想，采用了集中训练分散执行 (Centralized training decentralized execution，CTDE) 的算法框架。基于仿真环境，设计了智能体数量增加的三维实验场景及对应的奖励函数。最后使用本研究提出的基于 MADDPG 的多智能体避碰方法、PPO2 算法、SAC 算法、DDPG 算法对智能体进行训练，并对比训练效果。结果表明第 4 章提出的基于 MADDPG 的多智能体避碰方法，表现出了较好的协作能力，算法性能更稳定、避碰成功率更高，体现了多智能体深度强化学习算法在多智能体避碰问题上的优越性。