韩 达 课 题 组

韩 达 课 题 组

Nat Commun丨蛋白-蛋白相互作用的层次图学习

 

大家好,今天分享的文献是20232月发表在Nature Communications上的Hierarchical graph learning for protein-protein interaction

作者介绍:

本文通讯作者是香港科技大学化学系的黄勇教授(左)和大数据分析系的助理教授李佳(右),黄勇教授的主要研究方向包括对应选择性反应 、药物化学、有机化学;李佳教授的主要研究方向包括图学习、数据挖掘和面向科学的人工智能。

研究背景:

蛋白-蛋白相互作用(protein-protein interaction, PPI)在细胞信号传导、基因表达调控、蛋白质复合物形成等过程中发挥重要作用。然而,由于PPI的生物实验成本较高,近年来基于深度学习的PPI预测框架被广泛研究,如卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)和图神经网络(Graph Neural  Network, GNN)等。然而,这些网络框架建模单个蛋白质结构或者整个蛋白质作用网络,没有同时考虑底部蛋白质空间结构信息和顶部蛋白质相互作用信息。本文成功地融合了蛋白质的结构特征和整个蛋白质网络的链路特征,提出名为HIGH-PPI的模型,其性能超过现阶段最佳模型。

 

1. HIGH-PPI总体框架图

模型设计:

HIGH-PPI由顶视图(Top view)和底视图(Bottom view)组成,分别被用于学习蛋白质网络链路特征和蛋白质内部结构特征(图1)。作者提取了Protein Data Bank数据库中的蛋白质结构信息,并把蛋白质残基中的Cα原子作为节点,若两个Cα原子的距离小于10 Å,则此节点对间就存在边。此外,作者将氨基酸的7种物化性质作为特征,得出单个蛋白质图的特征矩阵。该特征矩阵和邻接矩阵被传入HIGH-PPI模型中的底视图进行学习。底视图存在两层图卷积网络块(Graph Convolutional Network BlockGCN Block),经训练后会得到单个蛋白质表示,该表示作为单个蛋白在顶视图层级的节点特征。

此外,作者提取了STRING数据库中SHS27k蛋白-蛋白作用类型信息。在顶视图中,单个蛋白质代表单个节点,蛋白-蛋白相互作用类型代表节点之间的边,从而构成顶视图层级网络。该网络进入三个图同构网络块(Graph Isomorphism Network BlockGIN Block)学习特征并得出蛋白-蛋白相互作用类型。

2. HIGH-PPI具体网络结构图

结果与讨论:

1HIGH-PPI 展现出最佳的性能、鲁棒性和泛化性

3. HIGH-PPI 模型性能、鲁棒性、泛化性比较图:(a)精准召回曲线(b)数据扰动后的性能曲线(c)对未知蛋白质上的性能曲线

为了测试模型的性能、鲁棒性和泛化性,作者进行实验验证。首先从SHS27k中构建包含约1600种蛋白质、6600PPI的数据集并随机选择 20% PPI 进行测试,并将HIGH-PPI GNN-PPIPIPRDrug VQARF-PPI进行比较,发现在精准召回曲线(precision-recall curves)图中HIGH-PPI优于其他方法(图3a)。

为了测试鲁棒性,作者在原始数据集上生成9个存在数据扰动的数据集,扰动值由0.1递增至0.9,发现HIGH-PPI模型在假阳性率、假阴性率、错误发现率都更低、鲁棒性更好(表1)。

1. 鲁棒性实验数据集数据扰动后模型性能表

为了测试模型的泛化性,作者寻找训练集和测试集外的蛋白质进行测试,并采用不同方法搜索未知蛋白,这些方法分别为深度优先搜索(Depth First SearchDFS)、广度优先搜索(Breath First SearchBFS)和随机搜索。此外作者调整未知蛋白在测试集中的比例,最终形成了BFS-0.3BFS-0.4DFS-0.3DFS-0.4R-0.65五个数据集。图3c中虚线部分是PIPRDrug VQARF-PPI的性能最高值,发现HIGH-PPI泛化性能远大于这些方法,并全面超过基线方法GNN-PPI

(2)底视图提升HIGH-PPI的性能                                  

为了验证底视图对HIGH-PPI性能提升的贡献,作者进行实验验证。首先对比了随机森林(random forest, RF)、RNNCNNGraph模型在(1)仅添加蛋白质序列信息和(2)同时添加蛋白质序列信息和3D结构信息条件下的性能,发现加入蛋白质3D结构信息使得所有模型性能得到显著提升(图4a)。为了检测模型的蛋白质结构接受容忍度,使用PDB中天然蛋白质结构和Alpha Fold计算的蛋白质结构进行评估。作者使用Alpha Fold生成6个存在误差的蛋白质3D结构测试集,并在HIGH-PPI模型上进行评估,发现即使RMSD误差达到8 Å时,HIGH-PPI也可维持较高性能(图4b)。作者通过移除特征并测试模型性能变化的方法从预选的12个特征中提取出7个对模型性能有最大贡献的特征,并将其对每一个PPI作用类型的重要程度可视化(图4c)。

4. 底视图的实验图:(a)添加3D结构信息模型性能前后对比;(b)由Alpha Fold生成数据集测试模型性能;(c)特征重要性可视化

 

(3)顶视图提升HIGH-PPI的性能

为验证顶视图对HIGH-PPI性能提升的贡献,作者提取了模型训练阶段的度恢复(degree recovery)和社区恢复(community recovery数据,并采用平均绝对误差和归一化互信息来表示度和社区的误差,发现MAENMIHIGH-PPI模型性能存在相关性(图5a)。此外作者对比了HIGH-PPI和其它方法(图5b),发现HIGH-PPI展现出最高的性能。

5. 顶视图实验图:(a)度恢复和社区恢复相关图(b)不同链路预测方法性能对比图

 

总结:

作者提出了一种分层级的蛋白-蛋白作用模型,即HIGH-PPI。该模型融合了蛋白质内部3D结构特征和外部网络链路特征,模型性能超过现阶段的其它模型。通过HIGH-PPI寻找蛋白质结合位点为湿实验提供指导,加快药物发现和蛋白质设计的速度。此外,分层思想可用于蛋白质以外的深度学习网络设计。

 

文献信息:

Gao, Z., Jiang, C., Zhang, J. et al. Hierarchical graph learning for protein–protein interaction. Nat Commun 14, 1093 (2023).  https://doi.org/10.1038/s41467-023-36736-1

 

2023年6月8日 11:02
浏览量:0
收藏