华科大团队开发几何三角形感知蛋白质语言模型，预测蛋白质-蛋白质接触

5,432 0 400

编辑 | 萝卜皮

有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的结构建模非常重要，并且对于理解蛋白质-蛋白质相互作用的分子机制也很有价值。

随着深度学习的出现，人们开发了许多方法来准确预测单体的蛋白质内残基-残基接触。然而，准确预测蛋白质复合物，尤其是异源蛋白质复合物的蛋白质间残基-残基接触仍然具有挑战性。

华中科技大学的研究人员开发了一种基于蛋白质语言模型的深度学习方法，通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知机制来预测蛋白质复合物的蛋白质间残基-残基接触（称为 DeepInter）。

该研究以「Protein–protein contact prediction by geometric triangle-aware protein language models」为题，于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。

华科大团队开发几何三角形感知蛋白质语言模型，预测蛋白质-蛋白质接触

蛋白质通过与其他分子相互作用或组装形成对称同源寡聚物来发挥其功能。阐明复杂结构的界面是理解其生物学功能的基本步骤。然而，四级蛋白质结构的预测仍然是一个长期存在的挑战。鉴于实验结构测定的低通量和高成本，计算方法已成为预测单体和复合物的蛋白质结构的有价值的方法。

近期，AlphaFold2 被提出作为一种端到端的深度学习架构来直接预测单体的结构。虽然AlphaFold2预测的结构的准确性在许多单体情况下可以与实验相媲美，但它在蛋白质复合物的结构预测方面还远未达到可比的准确性。因此，仍然非常需要开发进一步的计算方法来预测蛋白质-蛋白质相互作用。

蛋白质间残基-残基接触预测在需要关键界面信息的蛋白质复杂结构预测中起着重要作用。鉴于界面相互作用的重要性，科学家已经开发了各种基于深度学习的方法来预测蛋白质间接触和蛋白质-蛋白质相互作用。

与利用基于多重序列比对（MSA）的直接耦合分析（DCA）的共同进化数据进行的蛋白质内接触预测相比，先进的蛋白质间接触预测利用蛋白质语言模型的优势来捕获蛋白质间相互作用并提高性能。

然而，这些方法的性能取决于 MSA 提供的同源性。对于蛋白质间接触预测，需要进行配对MSA（interlogs）——这是一个主要的瓶颈和挑战。尽管有多种方法可将来自复合体不同单体的 MSA 配对，包括基于基因组、基于系统发育和基于块对角线的方法，但准确预测界面接触仍然很困难。

目前蛋白质间接触预测的方法有一些局限性。首先，现有的蛋白质间接触预测的主流框架主要基于残差卷积网络，其只能捕获局部特征。其次，这些方法的预测接触图具有很大的几何不一致，违反了三角不等式。第三，一些方法直接利用二维（2D）特征矩阵上的注意力机制，仅考虑每对残基的相互作用。

为了克服这些限制，华中科技大学的研究团队开发了一种基于深度学习的蛋白质复合物的蛋白质间接触预测方法——DeepInter，通过应用预先训练的蛋白质语言模型生成的隐藏特征并利用三角形感知模块。

华科大团队开发几何三角形感知蛋白质语言模型，预测蛋白质-蛋白质接触

图示：DeepInter的框架。（来源：论文）

DeepInter 在网络中引入了 ResNet-Inception 模块来处理蛋白质内特征；这可以通过增加有效感受野来有效捕获残基对之间的长程相互作用。

该团队在 300 个同二聚体、28 个 CASP-CAPRI 同二聚体和 99 个异二聚体复合物的不同测试集上广泛验证了 DeepInter，并将其与最先进的方法（包括 CDPred、DeepHomo2.0、GLINTER 和 DeepHomo）进行了比较。与现有方法相比，DeepInter 在同二聚体和异二聚体的不同测试集上提供了显著的性能改进。

与其他先进方法相比，DeepInter 正确预测了蛋白质间接触，并在两个不同的同二聚体测试集和一个异二聚体测试集上的几乎所有指标上实现了最佳性能。通过消融实验表明，这些改进主要是由 ESM-MSA-1b 功能和三角形感知模块贡献的。

前者在大型序列数据上进行训练，交错行和列注意力以提取残基-残基相互作用。后者在对表示上应用注意机制，通过满足几何三角不等式来考虑多体效应。对 MSA 深度和界面接触密度的进一步分析表明，对于相互作用界面较小、同源性较少的硬二聚体，DeepInter 可以比其他方法获得更高的精度。

在进一步的开发中，预测的蛋白质间接触可用于复合物的结构建模，例如，在蛋白质-蛋白质对接和梯度下降优化中。DeepInter 的架构可以进一步改进，以用于高阶寡聚复合物的蛋白质间接触。此外，该架构还可以适用于预测残基-残基距离图，与 AlphaFold2 或 AlphaFold-Multimer 一起工作以改进复杂结构预测。未来的方向也可能是预测蛋白质的寡聚状态，这是该领域仍然悬而未决的关键问题。

尽管 DeepInter 目前取得了成功，但仍然存在一些局限性，可以在未来的工作中得到改进。首先，因为研究人员使用了 ESM-MSA-1b 模型生成的 MSA 表示和注意力矩阵，所以二聚体的最大序列长度限制为 1,024。这意味着 DeepInter 无法预测极大的异质复合物的蛋白质间接触。其次，一些具有小界面的大蛋白质复合物很难用 DeepInter 和现有的预测器正确预测。第三，预测结构的质量会影响基于结构的方法的精度。

最后，蛋白质的较大构象变化将对性能产生重大影响。在未来的工作中，该团队可能会使用大型编码器模型的结构表示来增强预测器的稳健性，并进一步改进该网络来预测异质复合物的多链接触。

论文链接：https://www.nature.com/articles/s42256-023-00741-2

# AI行业动态