To provide a notion of distancewithin Gaussian process landscapes we developed a structure-based kernelfunction Here a protein structure is represented with its residue–residuecontact map The residue
为了在高斯过程景观中提供距离概念,我们开发了一种基于结构的核函数。在这里,蛋白质结构通过其残基-残基接触图表示。通过使用蛋白质数据银行中与父蛋白质至少有50%序列同一性的所有结构,生成了细胞色素P450的残基接触图。在这91个蛋白质链中,如果一个残基对中包含任何重原子,并且这些残基对在超过50%的P450链中都有接触,则被认为是接触的。高斯过程模型对截断距离的变化,考虑的原子类型或用于生成接触图的蛋白质结构数量都相对不敏感。
特定序列s的结构可以通过每个残基-残基接触的氨基酸来描述,并且这些信息可以用二进制指示向量x来编码。基于结构的核函数定义为 k(s_i, s_j) = σ_p * x_i · x_j,其中超参数σ_p对应于单个接触的先验方差,描述了景观变化的速度。在建模连续序列属性(回归)时,我们使用Eqs.1和2(12)给出的后验分布的解析解。通过交叉验证找到超参数σ_p和σ_n。在建模二进制序列属性(分类)时,我们使用拉普拉斯方法来近似后验分布(12)。通过最大化边缘化似然函数来找到核超参数σ_p。
原文地址: https://www.cveoy.top/t/topic/jek3 著作权归作者所有。请勿转载和采集!