基于深度强化学习的多智能体避碰决策方法研究

随着科技的不断进步，人工智能技术被广泛应用于解决现实复杂问题。在多智能体系统中，实现多智能体间的避碰是不可或缺的一个任务环节。然而，传统的多智能体避碰决策方法存在环境、智能体模型以及计算资源依赖性较强、扩展性较差等问题，难以适应复杂应用场景。

为了解决这些问题，本研究提出了基于深度强化学习（Deep Reinforcement Learning，DRL）算法的多智能体避碰决策方法。此方法结合实验场景设计奖励函数，对深度强化学习算法的奖惩机制进行改进，通过最大化累计奖赏来优化策略，使得整体训练更加稳定、收敛更快，提高了多智能体自主避碰的成功率。

本研究的创新点包括：

**基于PPO2算法的多智能体避碰决策方法：**第3章提出了一种基于传统强化学习算法-近端策略优化算法（Proximal Policy Optimization，PPO2）的多智能体避碰决策方法。此方法搭建了适用于传统强化学习算法的部分可观测马尔科夫环境，并通过对实验场景、奖励函数的合理设计，对多智能体避碰问题进行了建模。使用PPO2算法对多智能体进行训练，同时加入软行为评论家(Soft Actor-Critic，SAC)算法、深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法与研究中使用的方法进行对比，实验结果表明本研究提出的基于PPO2的多智能体避碰决策方法能够实现多智能体间的自主避碰，在第3章实验场景下，相比SAC、DDPG算法避碰成功率更高。
**基于MADDPG算法的多智能体避碰决策方法：**第4章针对传统强化学习算法在处理现实复杂环境下的多智能体问题时，存在维度爆炸、计算复杂、避碰成功率大幅下降等问题，提出了一种基于多智能体深度确定性策略梯度算法（Multi-agent Deep Deterministic Policy Gradient，MADDPG）的多智能体避碰决策方法。此方法借鉴多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）的思想，采用了集中训练分散执行（Centralized training decentralized execution，CTDE）的算法框架。然后对多智能体避碰问题进行建模，设计状态空间，计奖励函数，对MADDPG算法的奖惩机制进行改进。基于仿真环境，设计了智能体数量增加、多随机进入点的三维实验场景。使用本研究提出的基于MADDPG的多智能体避碰方法对多智能体进行训练，同时加入PPO2、SAC、DDPG算法与研究中使用的方法进行对比并。结果表明第4章提出的基于MADDPG的多智能体避碰方法，表现出了较好的协作能力，算法性能更稳定、避碰成功率更高，体现了多智能体深度强化学习算法在多智能体避碰决策问题上的优越性。

本研究通过提出两种基于深度强化学习的避碰决策方法，有效地解决了传统方法在复杂场景下的缺陷，为多智能体系统的避碰决策问题提供了新的解决方案，并为相关领域的研究提供了理论参考和实际应用价值。