Python 计算数值与目标值的接近程度并分配奖励
您可以使用以下代码来计算数值与 TOTAL_NUM_STEPS_1st 的接近程度,并根据接近程度来确定奖励的大小:
num = 330
TOTAL_NUM_STEPS_1st = 15 * 22
TOTAL_NUM_STEPS_2nd = 15 * 23
TOTAL_NUM_STEPS_3rd = 15 * 24
closeness = abs(num - TOTAL_NUM_STEPS_1st)
reward = 1 / closeness # 数值越接近 TOTAL_NUM_STEPS_1st,奖励越高
print(reward)
在上述代码中,我们首先计算数值与 TOTAL_NUM_STEPS_1st 的差距(使用 abs 函数获取绝对值),然后将差距作为分母计算奖励。差距越小,奖励越大。通过打印 reward,您可以获得数值与 TOTAL_NUM_STEPS_1st 接近程度的奖励值。
原文地址: https://www.cveoy.top/t/topic/p5NI 著作权归作者所有。请勿转载和采集!