韩 达 课 题 组

韩 达 课 题 组

NATURE丨使用 AlphaFold 3 准确预测生物分子相互作用的结构

大家好,今天分享的文献是2024年5月发表在Nature上的“ Accurate structure prediction of biomolecular interactions with AlphaFold 3”。

1有关作者

DeepMind公司,AlphaFold系列模型的开发者,不仅以其知名的AlphaGo闻名,还在2016年将业务拓展至AI与结构生物学的结合。最近AlphaFold 3成功预测了几乎所有生物大分子的相互作用结构,DeepMind在结构生物学领域取得了突破性进展。

2背景介绍

传统上,我们依赖X射线晶体学、核磁共振(NMR)和冷冻电镜技术来解析蛋白质结构。AlphaFold 2的预测精度已与这些传统方法相媲美。而AlphaFold 3不仅能预测蛋白质结构,还通过单一深度学习框架,准确预测了PDB数据库中几乎所有分子的高精结构和相互作用,为药物研发开辟了新路径,有潜力彻底改变传统药物研发方式。

图1|a,DNA和cGMP复合物;b,冠状病毒OC43刺突蛋白;灰色为共晶。

3模型架构

AlphaFold 3(AF3)在AlphaFold 2的基础上进行了优化和训练,不仅支持更多种类的分子,还提升了训练效率。它能够预测所有生物大分子之间的相互作用结构,得益于其更灵活和通用的设计:

  1. 令牌化方案:AlphaFold 3采用通用的令牌化策略,为每种分子类型(标准氨基酸、核苷酸和其他分子)分配独特标识符。蛋白质的每个氨基酸残基、核酸的每个核苷酸以及其他分子的每个重原子都对应一个令牌,使模型能够处理多种生物大分子。

  1. 相对位置编码:AlphaFold 3引入了相对位置编码技术,专门用于同一残基内的令牌,以解决对称性问题,帮助模型更准确地处理具有对称性的分子结构。

  1. 输入特征嵌入器:AlphaFold 3设计了复杂的输入特征嵌入器,通过注意力机制对所有原子进行操作,编码化学结构信息,形成统一的表示,使模型能够捕捉不同类型分子的结构和相互作用细节。

图1d|AF3的架构。矩形表示处理模块,箭头表示数据流向。黄色:输入数据,蓝色:抽象网络激活,绿色:输出数据。彩色代表分子物理原子坐标。

AlphaFold 3(AF3)的改进在确保性能的同时,简化了模型架构,使其能够适应各类生物分子。以下是AF3的架构流程:

1. 搜索与构象生成:通过基因搜索在数据库中寻找与目标序列相似的蛋白质或RNA链;模板搜索为单链蛋白质提供模板信息辅助预测;构象生成根据CCD代码或SMILES字符串生成参考构象。

2. 输入嵌入器:将所有分子的化学结构信息编码,并通过注意力机制处理所有原子,形成统一表示(single representation),同时构建对表示(pair representation),这些表示随后输入到调节网络进行循环处理。

3. 调节网络:由模板模块和MSA模块构成,分别编码模板和MSA信息到pair表示中,主要针对蛋白质和RNA序列。生成的pair表示作为输出,也是Pairformer模块的输入。

4. Pairformer模块:接收单表示和调节网络生成的pair表示,构成AF3的主循环,输出经过循环处理的single/pair嵌入。

5. 扩散模块:以single/pair嵌入为输入,进行调节扩散过程,最终输出蛋白质结构。

6. 置信度模块:接收pair表示、单表示和扩散模块的结构位置向量,计算置信度度量,如pLDDT、PAE、PDE等,这些度量帮助评估预测的可靠性,并指导样本排序和结构选择。

算法1|AF3的整体框架伪代码

4模型表现

如图3所示为AF3所进行的一系列结构预测示例,AF3可以根据输入的氨基酸序列、残基修饰、配体SMILES进行结构预测。

图3|AF3的结构预测示例。

a,7663个残基的40S小核糖体亚基蛋白、不透明蓝色的翻译始因子eIF1A和eIF5B、紫色为18S核糖体RNA、不透明紫色的Met-tRNA,复合物置信度LDDT=87.7。

b,糖基化的EXTL3二聚体,与共晶RMSD=1.1Å。

c,间皮素C端肽,与单克隆抗体15B6 结合,DockQ为0.85。

d,临床阶段抑制剂LGK974与带有WNT3A肽的PORCN蛋白结合形成复合物,小分子RMSD=1Å。

e,(5S,6S)-O7-sulfo DADH与AziU3/U2的复合体,与共晶RMSD=1.92Å。

f,NIH-12848类似物与PI5P4Kγ变构位点结合,与共晶RMSD=0.37Å。

4.1蛋白质-小分子配体结构预测

AlphaFold 3(AF3)在PoseBusters数据集上进行了160项蛋白质-配体结构预测评估。该数据集包含428个蛋白质-配体结构,其中161个结构是在2021年之后加入蛋白质数据银行(PDB)的。为确保评估的准确性,训练了一个独立的AF3版本,避免使用这些新加入的数据。评估结果显示,AF3在配体的均方根偏差(RMSD)小于2埃的成功率上,明显超过了基于结构的Vina和RFAA模型。

 

图1c,蛋白-小分子|在PoseBusters数据集上AF3的成功率。纵坐标成功率定义为配体RMSD < 2 Å 的百分比,N表示靶点的数量。

4.2蛋白质-核酸符合物或RNA单体

AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和 RNA 结构(下面的图1c)。我们没有与RFAA比较,因为RFAA精度低于RoseTTAFold2NA。从下图可见,AF3的蛋白-核酸对接成功率远远高于RoseTTAFold2NA算法。

 

图1c,核酸相关相互作用|PDB数据库中蛋白-RNA,蛋白-双链DNA;CSAP15比赛中RNA单体的成功率。成功率针对复合物是iterface LDDT,单体RNA仅为LDDT。N表示靶点的数量。

此外还评估了CASP15的10个RNA单体,与RoseTTAFold2NA和AIchemy_RNA2对比,AIchemy_RNA2表现出更加优异的性能(上图c,右边),详细结果在拓展图5a。

 

拓展图5a|在CSAP 15 RNA数据集上,AF3和RoseTTAFold2NA和AIchemy_RNA2对比,横坐标是10个RNA编号。纵坐标分别为LDDT、TM score、GDT等置信度指标。

AF3没有达到人类专家辅助的 AIchemy_RNA2的性能 (上图)。单独预测核酸DNA/RNA(没有蛋白质)的准确性LDDT的进一步分析显示在扩展图5b中。

 

扩展图5b|在单独核酸DNA/RNA上评估LDDT,AF3与RoseTTAFold2NA对比。

 

扩展图5c|蛋白-dsDNA复合物示例,左图以pLDDT绘图,右图以chain绘图

拓展图d|预测蛋白-核酸结构的PAE误差,不同颜色代表不同链A/B/C。

4.3共价修饰

AF3还可以准确预测共价修饰(键合配体、糖基化、修饰的蛋白残基和核酸碱基) (下图 1c)。修饰包括对任何聚合物残基 (蛋白质、RNA或DNA)的修饰。成功率定义为RMSD < 2 Å。

图1c,共价修饰|纵坐标成功率定义为配体RMSD < 2 Å 的百分比,N表示靶点的数量。依次为,蛋白键和小分子、蛋白糖基化、蛋白修饰、DNA/RNA修饰。

扩展图6显示了具有共价修饰的蛋白质、DNA和RNA预测结构的示例,包括分析磷酸化对预测的影响。

拓展图6a|在磷酸化 (SEP、TPO、PTR、NEP、HIP)场景,AF3的预测成功率,PTM代表转录后修饰。

4.4蛋白-蛋白/蛋白质单体

在提升建模能力的同时,AlphaFold 3(AF3)相较于AlphaFold-Multimer v2.3,在蛋白质复合物的准确度上也取得了显著提升,具体结果展示在下图c。特别是在抗体蛋白质相互作用的预测上,AF3表现出了明显的改进。此外,蛋白质单体的局部距离差异测试(LDDT)得分也有所提高。

 

图1c,蛋白相关相互作用或单体蛋白|蛋白Multimer、蛋白-抗体、蛋白单体在Recent PDB评估集上的预测成功率。蛋白Multimer、蛋白-抗体的成功率定义为DockQ > 0.23。蛋白单体使用LDDT指标定义成功率。N表示靶点的数量。

5总结

AlphaFold 3(AF3)作为通用模型,能够预测所有生物大分子的结构,显示出在统一框架内对各种生物分子系统结构的准确预测能力,具有广泛的覆盖率和高度的泛化性。然而,AF3也存在一些局限性:

  1. 立体化学局限:AF3在处理手性问题时,即使输入了正确的手性结构,有时仍可能输出违反手性的模型。此外,在蛋白-核酸复合物等情况下,可能产生原子重叠。

  2. 幻想问题:从非生成式模型AF2到基于扩散的AF3,引入了无序区域的虚假结构问题。AF3通过使用AF2的预测结果进行蒸馏训练,并引入了增加溶剂接触表面积的惩罚机制来解决这一问题。

  3. 动力学问题:AF3主要预测静态结构,无法捕捉生物分子系统在溶液中的动态行为。

  4. 特定目标精度问题:在某些情况下,如E3泛素连接酶,AF3可能无法准确模拟其不同状态下的构象,例如可能只预测出与配体结合的封闭状态。

  5. 准确性与计算成本:为了提高预测准确性,可能需要生成和评估大量模型结果,导致计算成本显著增加,尤其是在抗体-抗原复合物预测中。

AF3的性能显示,正确的深度学习框架可以减少实现生物学相关性能所需的数据量,并增强已有数据的影响力。未来,开发者计划通过改进结构建模和采用高置信度的实验方法来提高模型的泛化能力。

 

文献信息:

Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w

2024年7月15日 10:00
浏览量:0
收藏