韩 达 课 题 组

韩 达 课 题 组

Nucleic. Acids Res. | RNA的 Alpha Fold 时代何时到来

 

    今天分享的是2023年10月发表在Nucleic Acids Res.上的一篇文章,标题为When will RNA get its AlphaFold moment?

有关作者:

        本文的通讯作者为来自欧洲生物信息研究所(EMBL-EBI)的Alex Bateman教授,其研究方向为蛋白质的结构、序列与进化、功能之间的关联。值得一提的是,Bateman教授所在的EMBL-EBI为蛋白结构预测软件AlphaFold的开发机构之一。

研究背景:

        RNA分子在细胞内承担重要的功能。除开编码蛋白,一些mRNA的非翻译区域以及非编码RNA都具有调节作用。许多非编码RNA的功能取决于稳定的(例如核糖体、tRNA)或者瞬时的(例如剪接体)RNA结构。因此,对RNA结构的研究有利于对多种生命现象的理解以及相关药物和疗法的开发。

        RNA由核苷酸组成,单个核苷酸包括碱基、核糖和磷酸基团三部分。碱基与碱基之间通过范德华力和氢键相互作用;核糖通过pucker影响磷酸骨架的构象;而磷酸骨架则能形成多种扭转角组合,是RNA结构中最复杂的部分。RNA结构由其参与的分子内和分子间作用力共同决定(图1)。

1. PDB ID 4qvi为例,rRNA的六元环可以形成碱基-碱基之间的氢键、碱基-核糖之间的堆积、碱基-磷酸之间的氢键以及RNA与水分子之间的氢键等多种相互作用。

RNA结构预测现状:

        RNA结构预测的方法主要分为四大类:(1)从头计算RNA结构:通过分子动力学模拟或者Monte Carlo模拟给出能量最低的结构(Nucleic Acids Res., 2015, 44, e63);(2)基于同源性的方法:将目标序列与结构已知的模板序列进行比对,通过碱基替换的方式获得目标序列的结构(Nucleic Acids Res., 2011, 39, 4007–4022);(3)结构片段组装:将序列分为二级结构片段,再将二级结构片段在数据库中找到相应的三级结构并进行组装、能量最小化(Nucleic Acids Res., 2012, 40, e112);(4)基于深度学习的方法:从RNA结构模型中提取原子及其环境特征,通过神经网络的处理给出预测结构(Science, 2021, 373, 1047–1051)。

        从2010年开始,RNA-Puzzles开始了一系列对RNA结构预测可靠性和质量的评估:对于特定的目标RNA,将预测的结构与在Protein Data Bank(PDB)发表的实验结构进行对比。评估的方面主要包括Watson-Crick碱基对(WC)、非Watson-Crick碱基对(NWC)和与实验结构之间的RMSD(图2)。大部分结构预测手段对双链螺旋的茎部的预测准确性较高,具体体现在图2中INF-WC多分布在0.75至1(数值越高准确性越高);相反,INF-NWC多分布在0至0.5,说明当前结构预测手段对非Watson-Crick碱基对的预测准确性较低。这对RNA结构预测的整体准确性影响较大,因为非Watson-Crick碱基对常常通过影响茎部取向和junction的拓扑结构影响RNA的整体构象。此外,预测结构与真实结构之间的RMSD多分布在10至20 Å。上述统计结果说明,RNA结构预测的准确性和质量的提升仍然任重道远。

2. RNA-PuzzlesRNA结构预测手段的评估。

RNA结构预测面临的困境:

        与RNA相比,蛋白质的结构预测发展时间更长、涉及的目标分子更广(图3),目前采用的技术手段也更为成熟。在蛋白结构预测领域,最广为人知的技术之一是AlphaFold,其利用深度学习的方法实现从序列到三维结构的预测。然而,该手段需要大量的多序列比对(multiple sequence alignment)、实验结构数据作为训练集(Nature, 2021, 596, 583–589)。相应地,在RNA结构预测领域,一个基本的问题是:当前是否有足够的RNA结构数据作为训练集,以及他们是否有足够的质量和多样性。

3. RNA-PuzzlesCASP中收录的蛋白质和RNA结构预测数目的对比。

        (1)RNA实验结构的数量:

        从70年代开始,研究者认识到RNA可以折叠为复杂的结构;随后,更多功能性RNA的结构被解析;X-射线晶体衍射、冷冻电镜等技术的发展更是助力了这一过程。然而,截至目前,PDB数据库中的RNA实验结构仍远远少于蛋白,二者之间的差异超过了25倍(表1)。此外,高分辨率核苷酸残基(RNA)在PDB中的占比不到0.1%,远远小于氨基酸残基(蛋白质)的99.78%。高分辨率RNA结构的缺乏严重限制了RNA三维结构预测的发展;然而,该现状难以在短期内得到改善。

1. PDB中蛋白和RNA结构的分布。

        (2)RNA架构对整体折叠方式的重要性:

        RNA中最常见的架构是双螺旋结构,这些双螺旋区域与sharp turn、环、junction等结构元素共同决定RNA的三维空间结构。Junction包含至少3个双螺旋区域,对junction拓扑结构的准确预测会直接决定其双螺旋区域的取向。然而,junction通常由在序列上距离较远的核苷酸构成,且依赖于非Watson-Crick碱基对的稳定作用。非Watson-Crick碱基对的准确信息对二维和三维结构的预测至关重要。然而,目前能够从PDB中高分辨率结构中提取到的有关非Watson-Crick碱基对的序列和结构特征信息仍然不足。

        三维结构元素是另一类重要且难预测的目标(图4),其也与非Watson-Crick碱基对密切相关,同样存在现有数据量不足的问题。

4. 现有手段能够基本准确预测RNA的整体拓扑结构(左),但在局部结构的描述上与实验结构相差较大(右)。

        此外,RNA分子中还存在碱基-核糖氢键、碱基-磷酸氢键以及由金属离子介导的静电作用;这些稳定性作用力甚至比非Watson-Crick碱基对更被忽视。

        (3)RNA实验结构的质量:

        目前,RNA结构研究领域没有统一质量判定标准,这导致了PDB数据库中实验数据的质量问题。上述问题具体体现在:(i)用于归属碱基配对的软件常提供不完整或者互相冲突的信息;(ii)结构计算程序、结构评估程序和PDB中对于键长、键角等共价构型的定义不统一;(iii)对磷酸骨架的构象存在错误观念。因此,建立研究领域内统一且合理的结构标准迫在眉睫。

        (4)序列比对:

        多序列比对将不同残基之间的共同进化(correlated mutation)与其空间信息(contact in 3D space)相关联,该手段也被应用于蛋白质和RNA的结构预测。然而,对比蛋白质和RNA序列比对数据库Pfam和Rfam可发现,前者含有19 632个alignments,而后者仅有4108,说明RNA数据库中包含的信息远小于蛋白。此外,RNA数据库采用的covariance models比蛋白质数据库采用的hidden Markov models更消耗算力。

        除此之外,RNA的平均alignments平均小于蛋白,且具有更高的保守性(图5)。

5. 序列比对数据库PfamRfam的比较。

        最后,Rfam数据具有整体的偏向性(图6)。第一,大部分的比对数据仅针对结构较为简单的分子(例如,大部分数据来自miRNA,其结构一般包含双螺旋区域、环和错配,不足以代表RNA结构的复杂程度)。第二,种子序列与全长序列的偏向性。Rfam大部分种子序列来自sRNA,但其在PDB中的结构极少;而全长序列比对中占比较大的tRNA和rRNA则在PDB中有较为丰富的数据。第三,Rfam对非Watson-Crick碱基对和pseudoknots的识别和注释仍有待提升。

 

6. Rfam中对不同类型RNA的比对信息。

总结与展望:

        综合本文提到的RNA结构预测面临的困境,作者提出几个改进的方向:(1)提高对除了碱基配对之外的分子内作用力(如核糖、磷酸基团参与的相互作用)的理解;(2)制定研究领域内统一的RNA结构标准;(3)改进RNA序列比对;(4)将probing以及其他低分辨率结构信息加入机器学习的训练集。

 

B. Schneider, B. A. Sweeney, A. Bateman, J. Cerny, T. Zok and M. Szachniuk, When will RNA get its AlphaFold moment?, Nucleic Acids Res., 2023, 51, 9522-9532.

https://doi.org/10.1093/nar/gkad726

2023年11月7日 11:51
浏览量:0
收藏