赌徒问题马尔科夫决策过程分析:状态空间、行动空间、转移矩阵、值函数与动作价值函数
状态空间:赌徒手中的资金数量,可以表示为{0, 1, 2, ..., N},其中N为赌徒所拥有的最大资金数量。\n\n行动空间:赌徒可以进行的行动是押注的金额,可以表示为{0, 1, 2, ..., min(s, N-s)},其中s为当前赌徒手中的资金数量。\n\n转移矩阵(转移概率):由于赌徒问题是一个随机过程,所以需要考虑不同赌博结果的概率。如果赌徒手中资金数量为s,在押注金额为a的情况下,有三种结果:赢得押注、输掉押注、资金不变。对于每一种结果,都有对应的概率。转移矩阵可以表示为一个三维数组P(a, s, s'),其中a为押注金额,s为当前资金数量,s'为下一状态的资金数量。P(a, s, s')表示在押注金额为a的情况下,从状态s转移到状态s'的概率。\n\n值函数:值函数V(s)表示在状态s下,从当前状态开始,赌徒可以获得的期望回报。可以表示为一个一维数组,V(s)表示在状态s下的值。\n\n动作价值函数:动作价值函数Q(s, a)表示在状态s下,选择行动a后,从当前状态开始,赌徒可以获得的期望回报。可以表示为一个二维数组,Q(s, a)表示在状态s选择行动a的值。
原文地址: https://www.cveoy.top/t/topic/pO7l 著作权归作者所有。请勿转载和采集!