使用高斯过程景观预测蛋白质适应度

在蛋白质工程领域,理解蛋白质序列如何决定其功能是一个核心挑战。蛋白质的适应度景观,即所有可能序列与其适应度之间关系的映射,为解决这个问题提供了一个强大的框架。然而,由于可能的序列空间极其庞大,而且功能性蛋白质非常罕见,因此绘制和探索适应度景观非常困难。

本文介绍了一种新的蛋白质功能模型,该模型使用高斯过程回归直接从实验数据中推断适应度景观。高斯过程是一种强大的机器学习技术,可以捕捉复杂函数中的非线性关系,使其非常适合模拟适应度景观的崎岖性。

我们选择了一个基于结构的核函数来构建高斯过程模型,该函数基于具有相似结构的序列更有可能具有相似性质的原则。这种方法允许模型利用蛋白质结构中的信息来预测新序列的适应度。

我们通过将该方法应用于细胞色素P450家族的蛋白质来证明其效用。我们的结果表明,高斯过程模型可以准确地预测P450s的各种性质,包括二元功能状态、热稳定性、酶活性和配体结合亲和力。

重要的是,高斯过程模型提供了对其预测不确定性的度量。这种不确定性信息对于指导蛋白质工程工作至关重要,因为它可以用来识别最有希望进行实验验证的序列。

我们开发了两种利用高斯过程模型不确定性的算法来探索适应度景观。第一种算法识别景观中最具信息量的点,可用于设计多样化的蛋白质变体库。第二种算法通过迭代改进高斯过程模型来识别优化序列,这些序列位于预测为高度优化的景观区域。

使用这些算法,我们能够创建比以前通过嵌合生成、理性设计或定向进化制造的任何细胞色素P450都更热稳定的功能性细胞色素P450。这些结果突出了高斯过程景观在蛋白质工程中的潜力,可以加速发现具有增强特性的新蛋白质。

总的来说,我们的研究结果表明,高斯过程回归是一种强大的工具,可以用来模拟和探索蛋白质适应度景观。我们预计这种方法将被广泛应用于蛋白质工程领域,以设计用于各种应用的新型和改进的蛋白质,例如药物发现、生物技术和材料科学。

使用高斯过程景观预测蛋白质适应度

原文地址: https://www.cveoy.top/t/topic/fgTR 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录