将以下句子修改通顺:根据23节可知在模型集成时首先需对DQN、DDQN、Dueling DDQN单独进行训练最终采用训练好的三种模型集成。在仿真环境中对上述三种模型分别训练10000回合三种模型的网络参数、状态空间、动作空间和奖励函数保持一致根据21节设计状态空间、动作空间和奖励函数其中车辆加速度为 减速度为 参考已有研究1524设置网络参数和奖励值参数如表3所示训练过程中采用Adam优化器和均方
根据2.3节的内容,模型集成需要先单独训练DQN、DDQN、Dueling DDQN三种模型,最后使用已训练好的三种模型进行集成。在仿真环境中,对这三种模型进行了各自10000次的训练,同时这三种模型的网络参数、状态空间、动作空间和奖励函数都保持一致。根据2.1节的内容,设计了状态空间、动作空间和奖励函数,并参考已有研究[15,24]来设置网络参数和奖励值参数,具体细节见表3。在训练过程中,使用了Adam优化器和均方误差损失函数MSELoss。
原文地址: https://www.cveoy.top/t/topic/bpGn 著作权归作者所有。请勿转载和采集!