aws deepracer ppo continuous 如何设置超参数

在AWS DeepRacer PPO Continuous中，有许多超参数可以设置。以下是一些常用的超参数及其设置方法：

learning_rate（学习率）：控制模型在每次迭代时更新权重的速度。建议初始值为0.0003，可以根据需要进行调整。
num_epochs（迭代次数）：控制模型进行多少次训练迭代。建议初始值为10，可以根据需要进行调整。
batch_size（批次大小）：控制每个训练步骤中模型使用的样本数量。建议初始值为32，可以根据需要进行调整。
discount_factor（折扣因子）：控制模型对未来奖励的重视程度。建议初始值为0.999，可以根据需要进行调整。
entropy_regularization（熵正则化）：控制模型的探索性行为。建议初始值为0.01，可以根据需要进行调整。
epsilon_clip（ε-裁剪）：控制模型更新时的最大策略差异。建议初始值为0.2，可以根据需要进行调整。
num_episodes_between_training（每次训练之间的回合数）：控制模型进行多少个回合之后进行一次训练。建议初始值为20，可以根据需要进行调整。
num_episodes_per_evaluation（每次评估的回合数）：控制模型在每次评估中使用多少个回合。建议初始值为10，可以根据需要进行调整。
reward_discount_factor（奖励折扣因子）：控制模型对未来奖励的重视程度。建议初始值为0.999，可以根据需要进行调整。
kl_divergence_constraint（KL 散度约束）：控制模型策略更新时的最大 KL 散度。建议初始值为0.2，可以根据需要进行调整。

这些超参数可以在DeepRacer控制台的“超参数调优”页面中进行设置和调整。通过尝试不同的超参数组合，可以找到最适合特定环境和任务的模型配置