这是一个自定义的 OpenAI Gym 环境包装器,用于包装 '街头霸王 2' 游戏环境。它对原始环境进行了优化,以便更好地适应强化学习算法的需要。主要的改变包括:

  1. 使用一个 deque 数据结构来存储最近的 9 个游戏帧,以便更好地捕捉游戏中的动态信息。

  2. 将每个动作执行的帧数设置为 6,以便将动作的效果更好地体现在游戏中。

  3. 将奖励系数设置为 3.0,以便更好地奖励和惩罚代理的行为。

  4. 对观察空间进行重新定义,将其设置为一个形状为 (100, 128, 3) 的 Box 空间,以便更好地捕捉游戏中的细节。

  5. 当玩家获胜或失败时,使用不同的奖励函数来奖励或惩罚代理。当玩家获胜时,使用其剩余的生命值来作为奖励;当玩家失败时,使用其对手的剩余生命值作为惩罚,并根据对手的剩余生命值来适当调整惩罚的大小。

  6. 当设置 reset_round 标志为 False 时,游戏结束后不会重置游戏状态,而是继续进行新的游戏回合。


原文地址: https://www.cveoy.top/t/topic/nIzp 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录