Street Fighter 2 环境包装器：强化学习优化

这是一个自定义的 OpenAI Gym 环境包装器，用于包装 '街头霸王 2' 游戏环境。它对原始环境进行了优化，以便更好地适应强化学习算法的需要。主要的改变包括：

使用一个 deque 数据结构来存储最近的 9 个游戏帧，以便更好地捕捉游戏中的动态信息。
将每个动作执行的帧数设置为 6，以便将动作的效果更好地体现在游戏中。
将奖励系数设置为 3.0，以便更好地奖励和惩罚代理的行为。
对观察空间进行重新定义，将其设置为一个形状为 (100, 128, 3) 的 Box 空间，以便更好地捕捉游戏中的细节。
当玩家获胜或失败时，使用不同的奖励函数来奖励或惩罚代理。当玩家获胜时，使用其剩余的生命值来作为奖励；当玩家失败时，使用其对手的剩余生命值作为惩罚，并根据对手的剩余生命值来适当调整惩罚的大小。
当设置 reset_round 标志为 False 时，游戏结束后不会重置游戏状态，而是继续进行新的游戏回合。