In the mapping of protein sequence to protein behavior thephenotype can be envisioned as a surface or landscape over thehigh-dimensional space of possible sequences 1 This fitnesslandscape could descr
在蛋白质序列到蛋白质行为的映射中,表型可以被看作是可能序列空间的一个表面或景观。这个"适应度景观"可以描述蛋白质对有机体适应度的贡献,或者它可以代表生物物理性质,如稳定性、酶活性或配体结合亲和力。这个表面的结构描述了可能表型的光谱,以及它们之间的突变可及性,因此强烈影响蛋白质进化。这个表面也是蛋白质工程的目标函数,它寻求识别高度优化于给定属性或一组属性的蛋白质序列。
识别这样优化的序列非常具有挑战性,原因有几个。首先,可能蛋白质序列的空间是难以理解的庞大的,任何方法都无法彻底搜索到,无论是自然地在实验室中还是通过计算。其次,在这个广阔的空间中,功能蛋白质非常稀缺,估计范围从高达10^11到仅为10^77。在功能性序列中,大多数都具有较低的适应度,并且随着适应度水平的提高,它们的数量呈指数级下降。因此,高适应度序列非常罕见,并且被非功能性和平庸的序列所淹没。
计算蛋白质工程使用蛋白质功能模型来引导寻找优化序列。这些模型通常包含蛋白质的原子结构表示和基于能量的评分函数来量化目标函数。尽管最近取得了一些进展,但这些方法的实用性有限,因为它们无法可靠地对个体序列的性能进行排序。一般来说,使一个蛋白质的性能优于另一个的因素是复杂且大部分未知的。计算蛋白质工程面临的一个重要挑战是找到能够准确描述从序列到功能的映射的模型。
在这里,我们介绍了一类从实验数据中直接推断适应度景观的蛋白质功能模型,使用高斯过程回归,这是一种在机器学习中越来越受欢迎的技术,它属于核方法的更广泛的类别。核函数可以通过指定序列对的属性如何预期协变来描述适应度景观的协方差结构。我们选择了一个基于结构的核函数,灵感来自一个简单的原则,即具有相似结构的序列更有可能具有相似的性质。高斯过程模型提供了对蛋白质适应度景观的概率描述,包括任何序列的适应度的均值和方差。重要的是,序列的方差提供了模型的不确定性的度量,可以使用贝叶斯决策理论的概念来引导通过序列空间的搜索。
我们开发并展示了高斯过程景观的实用性,使用通过两个或更多(同源的)亲缘酶的重组制造的细胞色素P450。我们展示了这些模型可以准确描述P450的性质,如二元功能状态和热稳定性。因为它们是直接在实验数据上训练的,所以这些模型隐含地考虑了对特定属性有贡献的所有因素,包括那些未知的因素。使用高斯过程模型的不确定性作为指导,我们开发了两种能够有效探索蛋白质适应度景观的算法。第一种算法可以确定景观中最具信息量的点,我们用它来设计一个小而多样的嵌合P450序列集。然后,我们使用这个高度具有信息量的序列集来证明高斯过程能够准确地模拟P450酶活性和结合配体的亲和力。第二个算法通过迭代改进高斯过程模型来识别优化的蛋白质序列,这些序列在预测为高度优化的景观区域中。这种方法使我们能够创建比以前通过嵌合基因、有理设计或定向进化制造的细胞色素P450更热稳定的功能性细胞色素P450。
原文地址: https://www.cveoy.top/t/topic/jejy 著作权归作者所有。请勿转载和采集!