以下是q-learning的代码为什么运行之后的q表和我预想的差一个数字nimport-numpy-as-np--nimport-osnimport-randomnndef-random_actionVntindex_list-=-ntfor-index-s-in-enumeratelistVnttif-s-=-0ntttindex_listappendindexntreturn-randomchoiceindex_listnndef-reward_settingstate_num-action
根据代码,Q表的每个元素都是在循环中被更新的,因此每次循环更新后的Q表都会与之前的不同。此外,在代码的最后,Q表中的所有元素都被除以了5并转换为整数。这可能会导致一些元素值的丢失或舍入。因此,输出的Q表可能与预期的不同。如果您可以提供预期的Q表以及代码的输出,我们可以更好地帮助您解决问题。
原文地址: https://www.cveoy.top/t/topic/qkU 著作权归作者所有。请勿转载和采集!