DQN (Deep Q-Network) 的误差是指 Q-learning 算法中的 TD (Temporal Difference) 误差,即当前状态下预测的 Q 值与实际获得的奖励加上下一个状态的最大 Q 值的差值。具体公式为:

TD_error = reward + gamma * max(Q(next_state)) - Q(state, action)

其中,reward 表示当前状态下的实际获得的奖励,gamma 是折扣因子,Q(next_state) 是下一个状态的 Q 值,max(Q(next_state)) 是下一个状态中最大的 Q 值,Q(state, action) 是当前状态下对应动作的 Q 值。DQN 的训练目标就是最小化 TD_error,使得网络的预测 Q 值尽可能地接近真实 Q 值。

DQN 误差:理解 Q-learning 中的 TD 误差

原文地址: https://www.cveoy.top/t/topic/lFTS 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录