基于COMBO的机器学习方法在蛋白质荧光性能预测中的应用
本文使用了一种基于COMBO的机器学习方法,COMBO是一种基于贝叶斯优化的快速实现,之前我们在材料科学领域已经开发过。简单来说,COMBO使用了一个基于线性回归模型和随机特征映射的高斯过程:φ(x) = w^T * x + ε,其中y是蛋白质的荧光性能评分(在下一节中定义),x是蛋白质的特征向量,φ(x)是一个从x到d维数值向量(在本研究中d = 5000)的随机特征映射,ε是一个误差项。给定一组训练数据{(y, x)},COMBO拟合一个d维权重向量w,以便从特征向量x中预测荧光性能评分y。为了避免潜在的过拟合,COMBO使用基于类型2最大似然估计的超参数优化。对于不包含在训练数据中的每个未知蛋白质,COMBO可以评估改进概率评分,该评分表示蛋白质的荧光性能高于训练数据中的任何已测量蛋白质的概率。这些值被用来在所有可能的氨基酸序列空间中对未知蛋白质进行排序。
原文地址: https://www.cveoy.top/t/topic/fesY 著作权归作者所有。请勿转载和采集!