Nat Biotechnol丨根据冷冻电镜图构建全原子 RNA 结构
今天分享的文献是2024年2月发表于Nature Biotechnology,题为“All-atom RNA structure determination from cryo-EM maps”。
作者介绍:
通讯作者是华中科技大学物理学院、生物物理研究所的黄胜友教授,其主要研究方向包冷冻电镜图预处理和3D建模、相互作用预测(包括Protein-protein/ligand、Protein-RNA、RNA-RNA 、RNA-ligand)、 蛋白质配体/蛋白对接。
研究背景:
低温电子显微镜是当前最重要的大分子结构测定实验方法之一。随着数据收集和图像处理的自动化,已发表的冷冻电镜图数量呈指数级增长。许多大分子复合物的三维结构已通过冷冻电镜图确定,并存入蛋白质数据库。然而,从冷冻电镜图中确定结构仍然是一项具有挑战性和艰巨的任务。尤其是对于RNA的冷冻电镜图像,由于RNA具有更高的内在异质性和动态性,因此在RNA-蛋白质复合物的冷冻电镜图谱中,RNA的图谱质量通常低于蛋白质的质量。
本文提出了一种准确、自动测定全长全原子RNA结构的方法,即EMRNA。该方法旨在克服冷冻电镜图像中RNA结构测定的困难,确保结果的准确性和可靠性。
图1. EMRNA总体框架图
模型设计:
EMRNA框架如下:给定一个RNA冷冻电镜图,EMRNA首先通过训练后的Swin-Conv-UNet网络为冷冻电镜图中的每个3D体积单位预测P、C4′和N1(N9)的概率及其核苷酸类型。然后,将预测的P和C4′概率图转换为代表可能原子位置的主链点。对于每个主链点,通过从C4′概率图中最近的网格插值密度来分配C4′概率。核苷酸类型通过对内最近的3D体积单位进行投票来确定。接下来,采用类似于旅行推销员问题的方法,对主链点进行多次迭代地线索化成多个主链迹。然后,通过使用Smith–Waterman动态规划算法将RNA序列与主链迹进行对齐来对主链迹进行评分,其中预测的RNA二级结构也用于去除那些错误的迹线。对于每个最高分的主链迹,通过找到每个C4′原子附近的局部最大点来添加N1(N9)位置。在构建包括P、C4′和N1/N9原子的主链后,通过将准备好的A、G、C和U核苷酸坐标叠加到主链上来构建RNA的全原子结构。最后,根据预测的RNA二级结构进行碱基配对质量检查,并通过Amber能量最小化进行结构的提炼。
结果与讨论:
- 对比构建完整RNA结构的能力
auto-DRRAFTER 是一种用于建模全长完整 RNA 结构的最先进方法,为了评价模型建模全长RNA结构的能力,作者将EMRNA和auto-DRRAFTER进行对比。均方根误差(RMSD)代表了预测结构与真实结构的偏移量,RMSD越小则表示预测的三维结构越准确,模型的性能越好。TM-score代表预测结构与真实结构的相似程度,TM-score越大则代表预测的三维结构越准确,模型的性能越好。图3显示了EMRNA和auto-DRRAFTER RMSD和TM-score指标的比较,结果显示EMRNA的RMSD中位数达到了2.36 Å,远低于auto-DRRAFTER 的6.66 Å,EMRNA的TM-score中位数达到了0.86,远高于auto-DRRAFTER 的0.58,这些都显现出EMRNA模型的优越性。
图3.构建全长RNA三维结构EMRNA和auto-DRRAFTER 对比
- 对比构建片段RNA三维结构的能力
由于构建全长 RNA 结构存在困难,学术界已经开发了一些方法(Phenix 和 CryoREAD)来为冷冻电镜图谱中的高分辨率区域构建初始 RNA 结构片段。这种RNA结构片段提供了RNA结构的初始模型,因此在冷冻电镜图谱的RNA模型构建中也很有价值。作者在从冷冻电镜图中恢复 RNA 结构片段方面将EMRNA 方法与 Phenix和 CryoREAD 进行了比较。
图 4a 显示了 EMRNA、Phenix 和 CryoREAD 在 71 个 RNA 图谱测试集上的残基覆盖率直方图。从图中可以看出,EMRNA 的性能明显更好,残基覆盖率高达 93.30%,而 Phenix 为 58.20%,CryoREAD 为 56.45%。具体来说,EMRNA 在所有 71 个病例中获得了 >60% 的残留覆盖率,这意味着 EMRNA 恢复了所有病例的大部分 RNA 片段,而 Phenix 和 CryoREAD 分别仅在 31 个病例和 18 个病例中达到了这样的覆盖率。图 4c 显示了 EMRNA、Phenix 和 CryoREAD 在 71 个病例的测试集上的序列匹配比较。从图中可以看出,ERNA 在三种测试方法中实现了最佳性能,序列匹配率高达 95.30%,而 Phenix 为 42.20%,CryoREAD 为 52.30%。
图4.构建片段RNA三维结构EMRNA、phenix和 CryoREAD对比
(3)模型在只有RNA冷冻电镜图片的性能
作者在测试集中 19 个仅存在 RNA 的冷冻电镜图谱上进一步评估了 EMRNA 方法。 图 6 显示了 ERNA 和 CryoREAD 在 19 个原始图谱测试集上的比较。从图中可以看出,在主干RMSD 和覆盖范围指标中,ERNA 在所有情况下都比 CryoREAD 表现更好。对于序列匹配性能,ERNA 在 17 个图谱上优于 CryoREAD,仅在 2 个图谱上稍差。总体而言,EMRNA 的指标中位数分别为:主链 RMSD 1.49 Å 、覆盖率 76.90% 和 序列匹配度 68.50% ,而 CryoREAD 的指标中位数分别为:主链 RMSD 2.32 Å 、覆盖率46.30% 和序列匹配度 53.20%。此外,ERNA 模型还表现出比 CryoREAD 模型更准确的碱基构象(图 6d、e)。
图5.ERNA 和 CryoREAD 在只有 RNA 冷冻电镜图谱上的比较
总结:
作者提出了一种基于深度学习的方法,用于从冷冻电镜图中确定全长全原子 RNA 结构,称为 EMRNA。EMRNA在71个RNA冷冻电镜测试集取得了最好效果,超过auto-DRRAFTER、CryoREAD、Phenix模型,助力RNA冷冻电镜图三维结构构建。
文献信息:
Li, T., He, J., Cao, H. et al. All-atom RNA structure determination from cryo-EM maps. Nat Biotechnol (2024). https://doi.org/10.1038/s41587-024-02149-8