请详细解释这段代码def stepself action custom_done = False obs _reward _done info = selfenvstepaction selfframe_stackappendobs2 2 # Render the game if rendering flag is set to True

这段代码是一个强化学习的环境类中的一个方法，用于执行一个动作并返回结果，其中包括观察值、奖励、是否完成和其他信息。具体解释如下：

self: 环境类的实例。
action: 动作，是一个由智能体选择的在环境中执行的操作。
custom_done: 自定义的一个指示游戏是否结束的标志，初始值为False。
obs, _reward, _done, info: 调用环境中的step方法，执行动作并返回结果。obs表示智能体观察到的环境状态，_reward表示该动作获得的奖励，_done表示游戏是否结束，info是一个包含其他信息的字典。
self.frame_stack.append(obs[::2, ::2, :]): 将观察值的每个像素点的行和列都按两个为一组进行降采样，然后将结果存储到一个帧栈中。这可以减少计算量并提高性能。
if self.rendering: 如果环境的渲染标志为True，则渲染游戏。
self.num_step_frames: 每次执行step方法时，要连续按住动作的帧数。
for _ in range(self.num_step_frames - 1): 循环执行num_step_frames - 1次，每次执行step方法并将结果存储到帧栈中，模拟持续按住动作的效果。
curr_player_health = info['agent_hp']: 获取当前智能体的健康值。
curr_oppont_health = info['enemy_hp']: 获取当前对手的健康值。
self.total_timesteps += self.num_step_frames: 增加智能体已经执行过的帧数。
if curr_player_health < 0: 如果智能体的健康值小于0，则游戏结束，智能体失败。
custom_reward = -math.pow(self.full_hp, (curr_oppont_health + 1) / (self.full_hp + 1)): 自定义的惩罚奖励，惩罚智能体失败的情况。使用对手剩余的健康值作为惩罚。如果对手也有负的健康值，则认为是平局，奖励为+1。
custom_done = True: 设置游戏结束的标志为True。
elif curr_oppont_health < 0: 如果对手的健康值小于0，则游戏结束，智能体获胜。
custom_reward = math.pow(self.full_hp, (curr_player_health + 1) / (self.full_hp + 1)) * self.reward_coeff: 自定义的奖励值，奖励智能体的胜利。使用智能体剩余的健康值作为奖励。乘以一个reward_coeff系数，使奖励大于惩罚，以避免智能体过于保守。
custom_done = True: 设置游戏结束的标志为True。
else: 如果游戏仍在进行中。
custom_reward = self.reward_coeff * (self.prev_oppont_health - curr_oppont_health) - (self.prev_player_health - curr_player_health): 自定义的奖励值，奖励智能体减少对手的健康值，惩罚智能体自己的健康值减少。reward_coeff是一个系数，用于调整奖励大小。
self.prev_player_health = curr_player_health: 更新先前的智能体健康值。
self.prev_oppont_health = curr_oppont_health: 更新先前对手的健康值。
custom_done = False: 设置游戏结束的标志为False。
if not self.reset_round: 如果不重置回合，则游戏会一直进行。
return self._stack_observation(), 0.001 * custom_reward, custom_done, info: 返回观察值、奖励、是否完成和其他信息，其中奖励值被标准化为0.001倍