机器学习模型超参数优化：GBRT模型在预测中的应用

事实上，这些模型中的每一个都是作为一系列模型给出的，这些模型由所谓的'超参数'参数化。一旦选择了超参数，就可以将模型拟合到数据中。然而，与参数很少的第一性原理模型不同，这种 ML 模型可能会过度拟合，对于预测新的案例研究变得毫无用处。必须调整超参数，以便优化预测性能（表 S3）。为此，新病例的预期预测误差通过 10 倍交叉验证来估计，这意味着在数据的训练子集上拟合模型，并在验证子集上验证预测。详细信息可在支持信息中找到。RF和GBRT的性能优于SVR和KRR（图S3）。GBRT 预测因子提供了最佳 R2- （0.803）和RMSD值（1.083），表示为GBRT-1（图4A），并应用于本研究。

'超参数'是机器学习模型中的可调参数，用于控制模型的学习过程和性能。这段话指出，这些机器学习模型是通过一系列模型来构建的，并且这些模型使用超参数进行参数化。一旦选择了超参数，就可以将模型拟合到数据中。

与参数较少的第一性原理模型不同，机器学习模型可能会过度拟合数据，导致对于预测新的案例变得无用。为了优化预测性能，必须调整超参数。为了估计新病例的预测误差，使用了10倍交叉验证方法，即在数据的训练子集上拟合模型，并在验证子集上验证预测。

RF（随机森林）和GBRT（梯度提升回归树）模型的性能优于SVR（支持向量回归）和KRR（核岭回归）模型。其中，GBRT模型的预测因子提供了最佳的R2值（0.803）和RMSD值（1.083），表示为GBRT-1，并且在本研究中应用了该模型。