Street Fighter 2 环境包装器:强化学习优化
这是一个自定义的 OpenAI Gym 环境包装器,用于包装 '街头霸王 2' 游戏环境。它对原始环境进行了优化,以便更好地适应强化学习算法的需要。主要的改变包括:
-
使用一个 deque 数据结构来存储最近的 9 个游戏帧,以便更好地捕捉游戏中的动态信息。
-
将每个动作执行的帧数设置为 6,以便将动作的效果更好地体现在游戏中。
-
将奖励系数设置为 3.0,以便更好地奖励和惩罚代理的行为。
-
对观察空间进行重新定义,将其设置为一个形状为 (100, 128, 3) 的 Box 空间,以便更好地捕捉游戏中的细节。
-
当玩家获胜或失败时,使用不同的奖励函数来奖励或惩罚代理。当玩家获胜时,使用其剩余的生命值来作为奖励;当玩家失败时,使用其对手的剩余生命值作为惩罚,并根据对手的剩余生命值来适当调整惩罚的大小。
-
当设置 reset_round 标志为 False 时,游戏结束后不会重置游戏状态,而是继续进行新的游戏回合。
原文地址: https://www.cveoy.top/t/topic/nIzp 著作权归作者所有。请勿转载和采集!