基于深度强化学习的多智能体避碰方法研究
随着科技的不断进步,人工智能技术被广泛应用于解决复杂问题,其中多智能体系统是研究的重点和难点。在多智能体系统中,实现多智能体间的避碰是不可或缺的一个任务环节。然而,传统的多智能体避碰决策方法存在环境、智能体模型以及计算资源依赖性较强、扩展性较差等问题,难以适应复杂应用场景。
为了解决这些问题,本研究基于深度强化学习 (Deep Reinforcement Learning,DRL) 算法,结合实验场景,设计了合理的奖励函数,引导算法学习最优策略,提高了多智能体自主避碰的成功率。具体而言,本研究的内容和创新点如下:
-
第 3 章提出了一种基于传统强化学习算法 PPO2 的多智能体避碰方法。本方法搭建了适用于传统强化学习算法的部分可观测马尔科夫环境,并通过对实验任务场景、奖励函数的合理设计,对多智能体碰撞避免问题进行了建模。使用 PPO2 算法对多智能体进行训练,同时加入软行为评论家 (Soft Actor-Critic,SAC) 算法、深度确定性策略梯度 (Deep Deterministic Policy Gradient,DDPG) 算法与研究中使用的方法进行对比,实验结果表明本研究提出的基于 PPO2 的多智能体避碰方法能够实现多智能体间的自主避碰,在第 3 章实验场景下,相比 SAC、DDPG 算法避碰成功率更高。
-
第 4 章针对传统强化学习方法在处理现实复杂环境下的多智能体问题时,存在维度爆炸、计算复杂、避碰成功率大幅下降等问题,设计了一种基于多智能体深度确定性策略梯度算法 (Multi-agent Deep Deterministic Policy Gradient,MADDPG) 的多智能体避碰方法。同时,借鉴多智能体强化学习 (Multi-Agent Reinforcement Learning,MARL) 的思想,采用了集中训练分散执行 (Centralized training decentralized execution,CTDE) 的算法框架。基于仿真环境,设计了智能体数量增加的三维实验场景及对应的奖励函数。最后使用本研究提出的基于 MADDPG 的多智能体避碰方法、PPO2 算法、SAC 算法、DDPG 算法对智能体进行训练,并对比训练效果。结果表明第 4 章提出的基于 MADDPG 的多智能体避碰方法,表现出了较好的协作能力,算法性能更稳定、避碰成功率更高,体现了多智能体深度强化学习算法在多智能体避碰问题上的优越性。
原文地址: https://www.cveoy.top/t/topic/mYWB 著作权归作者所有。请勿转载和采集!