请改写以下段落让其更有逻辑重点突出:随着科技的进步智能化水平不断提高人工智能技术被越来越多的用于解决现实世界中的复杂问题其中多智能体系统是研究的重点和难点。而在多智能体系统中实现多智能体间的避碰是不可或缺的一个任务环节。传统的多智能体避碰决策方法对环境、智能体模型以及计算资源依赖性较强扩展性较差难以适应复杂应用场景。针对上述问题在深度强化学习Deep Reinforcement LearningD
随着科技的不断进步,人工智能技术被广泛应用于解决现实世界中的复杂问题。其中,多智能体系统是研究的重点和难点。在多智能体系统中,多智能体间的避碰是不可或缺的任务环节。然而,传统的多智能体避碰决策方法存在着对环境、智能体模型以及计算资源的依赖性较强、扩展性较差等问题,难以适应复杂应用场景。为了克服这些问题,我们在深度强化学习算法的基础上进行了研究,并结合实验场景,设计了合理的奖励函数,引导算法学习最优策略,提高了复杂环境下多智能体自主避碰的成功率。
具体而言,我们在第3章设计了一种基于传统强化学习算法PPO2的多智能体避碰方法,通过搭建适用于传统强化学习算法的部分可观测马尔科夫环境,对多智能体碰撞避免问题进行了建模,并使用独立强化学习的思路,加入软行为评论家算法、深度确定性策略梯度算法与研究中使用的方法进行对比。实验结果表明,我们提出的基于PPO2的多智能体避碰方法相比SAC、DDPG算法能够实现更高的避碰成功率,有效解决多智能体避碰问题。
在第4章中,针对传统强化学习方法在处理现实复杂环境下的多智能体问题时存在的维度爆炸等问题,我们设计了一种基于MADDPG算法的多智能体避碰方法,并采用了集中训练分散执行的算法框架。基于仿真环境,我们设计了智能体数量增加的三维实验场景及对应的奖励函数,最后使用研究中提出的方法对智能体进行训练,并对比训练效果。结果表明,我们提出的基于MADDPG的多智能体避碰方法表现出了较好的协作能力,算法性能更稳定、避碰成功率更高,体现了多智能体深度强化学习算法在多智能体避碰问题上的优越性。
原文地址: https://www.cveoy.top/t/topic/bu0e 著作权归作者所有。请勿转载和采集!