作者 | 刘悦睿
药物研发过程中,了解分子与代谢路径之间的关系,对于合成新分子和优化药物代谢机制至关重要。
西南交通大学杨燕/江永全团队开发了一种新型的多尺度图神经网络框架MSGNN,来将化合物与代谢路径联系起来。它包括特征编码器、子图编码器和全局特征处理器三部分,分别学习了原子特征、子结构特征和额外的全局分子特征,这三个尺度的特征可赋予模型更全面的信息。
该框架在 KEGG 代谢路径数据集上的表现优于现有方法,Accuracy、Precision、Recall、F1分别达到98.17%、94.18%、94.43%、94.30%。
并且,团队还采用了图增强策略将训练集中的数据量扩充了十倍,使模型训练更加充分。
该研究以「A Novel Multi-Scale Graph Neural Network for Metabolic Pathway Prediction」为题发表在《IEEE/ACM Transactions on Computational Biology and Bioinformatics》,第一作者是硕士生刘悦睿。
论文链接:https://doi.org/10.1109/tcbb.2023.3345647
研究背景
代谢路径(Metabolic Pathway)又称为代谢网络,是在酶催化作用下代谢物之间发生化学作用和相互转化的复杂系统。在新药的研制过程中,了解分子与代谢路径之间的关系对于合成新分子和优化药物代谢机制至关重要。
在早期的研究中,研究者们一般基于传统的机器学习方法来对代谢路径进行分类和预测,包括支持向量机(SVM)、K近邻算法(KNN)、决策树等。而随着深度学习的快速发展,目前领域内的主流方法是构建图神经网络框架以完成分类任务,如图卷积网络(GCN)、图注意力网络(GAT)等。
虽然现有的方法在代谢路径类型预测方面取得了良好的效果,但大多数预测模型没有全面考虑化合物的特征。此外,代谢数据的数量相对有限,尚未发现有文章将图增强策略引入该领域。
基于此,本文提出了多尺度图神经网络框架 MSGNN,分别从原子特征、子图特征、全局分子特征出发,采用科学合理的分子图增强策略,进一步全面地探究代谢路径预测模型的构建。MSGNN 在 KEGG 代谢路径数据集上的表现优于现有方法,Accuracy、Precision、Recall、F1分别达到98.17%、94.18%、94.43%、94.30%。
总体框架
MSGNN的总体框架如图1所示,它包含子图编码器、特征编码器和全局特征处理器。子图编码器将子图向量作为图节点特征,通过两层GIN与全局求和池化生成子图嵌入。特征编码器利用原子特征作为图节点特征,通过两层GAT与全局平均池化生成特征嵌入。全局特征处理器负责提取来自预训练模型和两种分子指纹的信息。最终,先将子图嵌入与特征嵌入拼接在一起,再与全局特征嵌入相加,最后输入多层感知机层以生成预测结果。
由于常见的原子和化学键类型较少,无法充分展现化合物的性质,而且参数数量过少容易导致深度学习模型性能不佳。因此,子图编码器使用了r-半径子图作为特征。r实际上是指指定的中心原子到其邻居节点的跳数。这种方法不仅考虑了子图中原子和化学键的类型,还考虑了中心原子所处的环境。半径为2的分子子图示例如图2所示。在获得子图特征后,将分子图输入两层图同构网络(GIN)中,再对第二层GIN使用全局求和池化来进行读出操作,此时每个化合物可得到一个子图向量。
图神经网络在深度模型中存在过度平滑问题,这是由于在消息传递过程中相邻节点的特征重复传递了,导致模型产生的节点表示都过于相似。为了缓解这个问题,除了学习分子子图特征,作者还使用了两层图注意力网络(GAT)来学习十种原子特征。为了稳定自注意学习过程,第一层GAT采用了五头注意力机制。
除了原子和子图层面的特征,作者还添加了全局分子特征,其包含了预训练模型特征和分子指纹特征。为使模型更健壮,MSGNN采用了预训练模型MolCLR,它利用了来自1000万个独特的无标签分子SMILES字符串,这些SMILES字符串是通过PubChem收集的,并利用RDKit进行一系列操作。分子指纹特征包含MACCS指纹和ECFP指纹,它们给予了模型分子的先验知识。
众所周知,数据对于深度学习而言至关重要,而现有的代谢数据有限,这也限制了模型的复杂程度。为了使模型训练更加充分,作者采用了原子掩蔽与键删除相结合的策略来扩充训练集。作者选择了十倍数据增强策略,即对于一个分子图来说,对它进行十次数据增强操作,得到十个被随机掩蔽掉原子和删除掉键的增强分子图。因此,训练集中不仅包括原始的分子图,还包括增强分子图。这样的操作使数据量大大增强。
对比实验分析
为展示MSGNN模型的优越性,作者在包含6669条数据的KEGG数据集中测试了MSGNN与各对比模型的表现。在经典的机器学习算法中,作者使用了K近邻算法(KNN)、随机森林(RF)、梯度提升决策树(GBDT)、轻量级梯度提升机器学习(lightGBM)和极端梯度提升算法(XGBoost)。这些机器学习方法的输入是167维的MACCS指纹,并且这些方法都使用了网格搜索来寻找最佳参数。此外,作者还将MSGNN与近年来优秀的深度学习模型进行比较。
为了使实验结果更具说服力,作者采用了十折交叉验证,每折包含了200个epoch。值得注意的是,作者获得最终精度的方式为先对每一折中所有epoch的精度值取平均,再对十折中的精度均值取平均。这种方式的优点在于它考虑了模型的收敛速度,而在实际生产中,模型的收敛速度也是评价模型质量的重要指标。具体的实验结果如表1和图3所示。从表1可以看出,MSGNN在四项指标上均优于其它八种方法。从图3可以看出,MSGNN的指标值更加集中和稳定,这表明MSGNN具有出色的化合物特征提取能力,体现了其优越性。
表1:不同模型在KEGG数据集上的比较结果
为了进一步考察各模型的收敛速度,作者将MSGNN与三种深度学习模型进行比较,从图4中可以看出,MSGNN的收敛速度比其它三个基于图神经网络的模型更迅速。
消融实验分析
为进一步探索MSGNN的各个模块对整体的贡献,作者设计了四种MSGNN变体,分别是没有使用图增强策略的变体(w/o Aug)、缺少子图编码器的变体(w/o SE)、缺少特征编码器的变体(w/o FE)、缺少全局特征处理器的变体(w/o GF)。实验结果如图5所示。
首先,MSGNN显著优于w/o Aug。由于使用了图增强策略,MSGNN的Accuracy、Precision、Recall、F1分别提高了0.38%、0.98%、1.48%、1.27%,这表明通过扩充训练集可以更加充分地训练模型。
其次,子图编码器也对模型性能的提升做出了很大贡献。与MSGNN相比,w/o SE的四项指标分别下降了0.40%、1.43%、1.03%、1.23%。这表明,基于GIN的子图编码器有效地学习了化合物的内在属性,使MSGNN能够更精确地对代谢路径类型进行分类。
最后,特征编码器和全局特征处理器也在一定程度上提高了MSGNN的性能,它们使MSGNN能够从不同尺度学习原子和分子特征,从而使模型更加鲁棒。
因此,图增强策略、子图编码器、特征编码器、全局特征处理器都是模型不可缺少的部分。
结论
本文中,作者提出了一种新型的多尺度图神经网络框架,它包括特征编码器、子图编码器和全局特征处理器。这三个编码器分别学习了原子特征、子结构特征和额外的全局分子特征,这三个尺度的特征赋予了模型全面的信息,使模型能够将化合物与代谢路径联系起来。此外,作者还采用了图增强策略将训练集中的数据量扩充了十倍,使模型训练更加充分。