Nature Communications | Nufold: 基于灵活核苷酸中心表示法的RNA三级结构的端到端方法预测

大家好,今天要分享一篇2025年发表于《Nature Communications》的文章,题为“NuFold: end-to-end approach for RNA tertiary structure prediction with flexible nucleobase center representation” 

本研究由普渡大学生物科学和计算机科学领域的专家团队联合完成,主要作者包括Yuki KagayaZicong ZhangNabil IbtehazXiao WangTsukasa NakamuraPranav Deep PunuruDaisuke Kihara。团队利用跨学科优势,致力于解决RNA结构预测中数据稀缺与计算复杂性的问题,推动生物信息学和深度学习在RNA研究中的应用。

研究背景 

RNA不仅是生命必不可少的分子,在基因表达过程中,它以信使RNAmRNA)的形式传递遗传信息;同时,RNA还能以非编码RNAncRNA)的形式参与调控、修饰等多种生物功能。这类ncRNA包括核糖体RNArRNA)、转运RNAtRNA)、小核RNAsnRNA)、小核仁RNAsnoRNA)、环状RNAcircRNA)以及参与催化反应的核糖酶等,堪称生命的多才多艺分子。随着RNA序列数据的不断积累,科学家对RNA在调控机制和药物设计中重要性的认识也在迅速加深。据统计,目前全球最大的RNA数据库RNACentral中已包含超过三千万条ncRNA序列。然而,与这些海量序列数据相比,对应的三维结构信息却显得极度匮乏。而RNA的三维结构正是其功能体现的关键,若无法揭示其结构,就难以全面理解其作用机制。要获取RNA的精细三维结构,目前主要依赖实验手段,例如X射线晶体学和冷冻电镜。但这些技术通常成本高昂、耗时较长,更受限于RNA复杂的理化性质,难以广泛应用。因此,截至目前,以RNA为主题的结构数据在蛋白质数据银行(PDB)中仅占极少比例。这一结构数据的严重稀缺,不仅阻碍了科学家对RNA结构与功能关系的深入研究,也使得基于实验数据的RNA结构预测长期面临瓶颈。为解决RNA结构稀缺的问题,许多计算预测方法应运而生。传统的RNA三维结构预测一般采取两种策略:模板匹配和能量最小化。模板匹配法虽然能通过已知结构快速生成预测模型,但效果严重受限于可用模板的稀缺性。而能量最小化方法在理论上具备更广泛的适用性,但其计算时间往往过长,同时能量函数的不够精确也导致了较大的预测误差。上述种种问题表明,亟需一种全新的智能化手段,突破现有技术的局限。

       正是在这样的背景下,科研团队成功开发了NuFold——一种全新的基于端到端深度神经网络的RNA三维结构预测方法。NuFold借鉴了此前在蛋白质结构预测领域大放异彩的AlphaFold2,并针对RNA的独特性质进行了关键性的创新改进。NuFold的一个核心创新是引入了核苷酸中心表示法(示意图参见图1)。这一方法允许模型灵活模拟RNA核糖环的多种构象,从而更好地还原RNA的局部几何结构。此外,NuFold通过结合多序列比对(MSA)和预测的RNA二级结构信息,能够从RNA序列直接生成全原子级三维结构模型,大幅提高了预测的精确度和效率。值得一提的是,NuFold采用的是端到端处理方式,不需要依赖任何模板结构。在许多测试案例中,NuFold的表现远超传统方法,为RNA结构预测开辟了新道路。

1. 关键技术

模型设计

NuFold的整体架构(如图2所示)由三个主要模块构成:

数据预处理模块该模块的任务是将输入的RNA序列转换为模型可以处理的信息。具体来说,首先通过rMSA方法生成多序列比对(MSA),以提取序列中的进化信息。同时,借助IPknot方法预测RNA的二级结构,为后续的三维结构预测提供额外的约束条件。Evoformer模块:这一模块采用多层Transformer结构,对MSA中提取的进化信息进行深度处理,生成单体特征和残基间成对的嵌入表示。Evoformer不仅能够捕捉序列中的进化共变信号,还能够学习RNA残基之间的相互作用,从而为后续的三维结构构建打下坚实的基础。

结构模块结构模块负责根据嵌入信息构建RNA的三维结构。不同于蛋白质预测中使用氨基酸侧链信息,NuFold创新性地采用了核苷酸中心表示法。这种方法将RNA的基础骨架定义为由O4C1C2以及碱基上的第一个氮原子(CUN1GAN9)组成的核心框架。至于其余的原子,则被划分为十个独立的局部框架。通过预测这些局部框架间的旋转角度,模型可以迭代构建出完整的全原子三维结构。

2. Nufold模型结构

总体结果

36个测试RNA目标上的预测中,NuFold表现非常出色。作者尝试了两种训练策略:一种是选择在验证集上平均RMSD最低的模型(RMSD-centric),另一种是选择GDT-TS最高的模型(GDT-TS-centric)。总体表现来看,两种策略的预测差异不大——其中有25RNA目标的RMSD低于。具体而言,RMSD-centric模型在4个目标上表现更优,而GDT-TS-centric模型则在另外2个目标上略胜一筹。

总体分析显示,两种模型在30个目标上的预测结果几乎一致。因此,我们最终选择RMSD-centric模型作为基准,用于后续的比较分析。(详情参见图3

3. 整体结果

关于模型建模精度的实验

4以一张简明的流程图清晰呈现了RNA三维结构预测的完整架构。从输入的RNA一级序列开始,左侧模块展示了如何通过rMSA算法提取同源序列比对的拓扑数据,同时整合Ipknot工具生成的二级结构特征矩阵。这些丰富的生物信息随后被输入到基于EvoFormer架构的多层级联模块,用于特征提取和演化处理。最终,结构解码模块利用这些特征,逐步迭代预测RNA在全原子空间中的三维坐标。值得强调的是,这一框架的核心创新在于引入了核苷酸中心化表征体系,将碱基特异性编码融入特征张量中。同时,通过多轮坐标回收机制(recycling),预测结果得以逐步优化,精确度大幅提升。这张技术流程图不仅直观展示了从RNA序列到三维结构的映射过程,还通过细致的注释说明了构象空间采样与几何优化的关键细节。

4. 目标长度,MSA深度,回收和元基因组MSA建模精度的影响

5通过系统比较多种RNA二级结构预测算法(IpknotMxfold2SPOT-RNA)的F1评分与三维构象预测的均方根偏差(RMSD),揭示了二者之间的关联规律。结果显示,二级结构预测精度的提高(F1评分的上升)总体上有助于降低三维结构预测的误差(RMSD呈下降趋势)。然而,从数据分布来看,这种相关性并非严格线性。这一现象说明,在NuFold的端到端三维结构建模中,尽管高精度的二级结构预测能够提供有价值的先验信息,但并不是提升整体模型性能的决定性因素。这反映了NuFold架构的高度综合性与鲁棒性,其三维建模能力不完全依赖于二级结构的精确度。

5.二级结构预测准确性的影响

根据研究结果,图6对比了不同比例自蒸馏训练数据(100%50%33%0%四组)的模型训练动态,清晰展示了模型在FAPE损失函数和其他多维度评估指标上的表现变化。结果显示,随着自蒸馏样本比例的增加,模型不仅在训练过程中表现出更好的收敛效果(损失值显著下降),还在关键评估指标上取得了整体提升,例如结构预测精度(lDDT)和构象推断能力(INF)。这一结果明确显示,采用自蒸馏数据增强策略对提升深度学习模型性能起到了至关重要的作用,同时也验证了其在优化结构预测任务中的有效性。

6.训练中自蒸馏数据集大小的影响

7以箱型图的形式汇总展示了 NuFold  SimRNAFARFAR2及其他深度学习方法在 RMSDlDDTINF_WC  INF_ALL 等指标上的分布情况。中位数、四分位区间及离群值的可视化直观揭示了各方法的性能稳定性。结果表明,尽管在整体结构评估指标上各方法存在一定差异,NuFold 在局部结构及相互作用网络评估(INF 指标)方面表现出明显优势。

7.与其他预测方法的比较

8展示了多个具体案例,包括 76 nt 长的 tRNA117 nt 的核开关、复杂的核酸交互网络结构案例以及大型伪结结构案例。每个子图左侧为真实结构,右侧为模型预测结果,并标注相应的 RMSD 数值。图中突出显示了 NuFold 在局部几何构型(如伪结区域、转角区域)预测上的优势,特别是在处理复杂拓扑结构时取得了显著改进。

8.实例预测图

总结

NuFold采用端到端深度学习架构,成功实现了RNA三级结构的高精度预测。通过独特的核苷酸中心表示法和循环优化技术,NuFold在局部几何建模方面展现了卓越的性能。虽然全局建模仍有进一步改进的空间,但结合元基因组数据、回收策略和自蒸馏学习等方法,NuFoldRNA结构预测开辟了全新的研究方向。


招聘公告

本课题组常年全球招募具有具有化学、生物、医学、材料、人工智能、信息科学等相关背景的博士后和科研助理。

有意者请将个人简历发送至dahan@sjtu.edu.cn,并抄送guopei@ibmc.ac.cn,邮件主题为“应聘职位+姓名+研究方向”。

具体招聘信息可点击此处查看详情

图片
图片
微信号:HanDa-Lab
课题组网站:https://www.hanlab.net/

撰稿:林宏烨

校对:何磊

编辑:江言

∨ 点击“阅读原文”直达文献

2025年9月8日 11:11