NAT COMPUT SCI | 基于结构预测的深度学习用于RNA核酸适体设计
今天分享一篇2024年11月份发表在nature computational science上的文章,标题:Deep generative design of RNA aptamers using structural predictions。
通讯作者:
通讯作者是麻省理工学院的James Collins教授和香港中文大学的助理教授李煜。李煜的主要研究方向为机器学习、医疗保健和生物信息学的交叉领域,通过开发新的机器学习方法来解决生物学和医疗保健中的计算问题,尤其是结构化学习问题。James Collins教授的主要致力于合成生物学和系统生物学研究,特别注重使用网络生物学方法研究抗生素作用、细菌防御机制和耐药性的出现。
研究背景:
RNA核酸适体是一类特定的RNA分子,能够通过其独特的三维结构与特定的分子靶标高度特异性地结合。这种结合能力使得RNA核酸适体在医学和生物技术领域具有广泛的应用潜力,特别是作为诊断和治疗工具。其中三维结构在功能中起关键作用。深度学习方法如AlphaFold等已可准确预测蛋白质三维结构,但RNA三维结构预测方法因训练数据相对稀缺和构象灵活性等挑战而发展较晚直到最近才出现。
目前已有多种侧重于二级结构的RNA设计方法,如LEARNA、RiboLogic等,而能够预测RNA三维结构的计算机模拟平台可实现基于结构信息来设计新型RNA适配体。作者开发一种利用结构预测进行RNA适配体的深度生成式设计的方法,以实现高效、有针对性地设计具有特定功能的新RNA序列,为后续生物医药和科学研究提供了新的工具和方法。
结果与讨论:
作者设计了一个以RNA三级结构为输入,序列为输出的结构到序列的生成式模型RhoDesign。设计流程如下:首先输入指定的PDB三维结构,模型会先对结构进行反折叠推断出RNA的序列,随后筛选并输出可以折叠成与输入结构相似但序列不相似的核苷酸序列(图1a)。RhoDesign模型由GVP(Geometric vector perceptron)编码器和Transformer两部分共同组成。其中GVP模块用于对RNA的三维结构数据进行编码,会从RNA的三维坐标中抽取并计算得到对应的矢量特征和标量特征。例如,从一个核苷酸的C4′到下一个核苷酸的C4′(C4′_i到C4'_i+1)的矢量表征了一个部分的骨架相对于下一部分的空间方向。对于标量特征,则会选择包括C4′, C1′, N1, C2, C5′, O5′, P在内的七个原子。利用这些原子之间的连接关系计算二面角,它们描述了RNA分子局部几何的旋转状态,并且在结构的旋转和平移变换下保持不变。之后,GVP编码的结构特征以及输入的二级结构接触图被送入Transformer的编码器学习相关的特征。然后,解码器处理编码器的输出以生成序列结果,以逐步方式操作,产生输出具体的核苷酸序列(图1b)。
由于现有的基于深度学习的模型往往依赖于大规模的数据训练。但现有的经实验验证的RNA结构数据量十分稀缺。为此作者利用在CASP-15 RNA结构预测竞赛上取得冠军的模型RhoFold预测了来自于RNACentral序列库中的约37万RNA结构,结合从PDB文件中筛选出的3435个实验解析出来的RNA结构,将其共同用于模型的训练。
随后作者对训练好的RhoDesign模型与同类型的结构-序列模型进行了基准测试,评估了序列恢复率(Recovery rate:设计的RNA序列与天然RNA序列进行比较,计算正确恢复的核苷酸比例,越高越好)、TM分数(衡量两个三维结构的全局相似性,越高越好)、均方根偏差(RMSD:衡量两个结构中原子的平均距离。越小越好)和困惑度(表示模型预测下一个核苷酸的“迷惑程度”,越低越好)。在基准测试中,RhoDesign优于其他模型,如LEARNA、Meta-LEARNA等,其恢复率达52.9%(图1c)。另外还进行了消融实验:分别使用三级结构和二级结构信息的组合进行训练;仅使用三级结构信息(3D information only)进行训练;仅使用3,435个PDB结构进行训练;仅使用369,499个RhoFold预测结构进行训练。结果表明RhoFold增强数据和二级结构信息可提高性能,GVP和Transformer架构有助于更好地学习(图1d-g)。
图1基于3D结构的RNA生成设计的深度学习方法
接下来,作者聚焦于生成荧光RNA核酸适体(Mango aptamer),这种适体与小分子结合,可以进行快速和定量的设计序列测试。并且Fluorogenic Mango适体与TO1-biotin(一种小分子)结合已被广泛探索并解析出了其三维结构。作者对生成的RNA核酸适体进行了湿实验验证和优化,并研究了生成的Aptamer的发光机制。首先作者以Mango-III(A10U)适配体结构为输入(Mango-III在PDB中编号为6UP0,可以与TO1-biotin结合并产生荧光,荧光强度约为Mango-I的7倍),用RhoDesign生成60个候选序列,经筛选得到18个适配体进行合成和实验评估,同时合成RaptGen(一种为SELEX数据开发的变分自编码器,仅使用Mango适配体的序列信息进行训练)和其他七种结构-序列模型生成的适配体对比。用RMSD作为衡量标准。总体而言,使用其他结构到序列模型生成的70个适配体与Mango-III的序列相似性最低,结构偏差最大(图2a)。随后作者采样结构相似度高且序列相似度低的110个RNA核酸适体进行合成并用于TO1-生物素荧光诱导测试,以Mango-I的荧光强度的一半为阈值区分是否有活性(图2b)。作者认为RaptGen生成的序列与Mango系列的aptamer相似度很高,归类为冗余序列不予考虑,其他模型生成的有活性的适体的也不如RhoDesign生成得到的有活性的4个适体活性高,于是作者重点将RhoDesign生成的有活性的4个适体与Mango系列适体的序列相似度和与TO1-biotin结合的荧光强度进行了对比。发现生成的Aptamer 1的荧光强度强于Mango-I且与Mango系列的序列相似度也很低。说明它可能是一种前所未有的、具有类Mango活性的适体(图2c)。在对Aptamer 1的结构预测与Mango-III对比证实了二者结构非常相似(图2d)。作者为了进一步优化其活性,对预测得到的结构进行了2类,发现Apt1比Mango-I更类似于Mango-III,表明它正在采样与高荧光相关的结构空间(图2e)。另外作者发现使用MPBind(一种最初用于处理SELEX数据的基于模体和序列的统计框架)对110个适体进行评分,与荧光活性呈现出高相关性(皮尔森相关系数=0.428)(图2f)。基于这些结果,作者通过将RhoFold预测的适体1结构作为输入提供给RhoDesign,生成了一组适体1的衍生物。并且采样了5,000个预测位于适体1周围结构簇的RNA序列,筛选序列以确保它们与适体1的序列相似性大于任何Mango适体,并移除了MPBind评分低(<0.4)的序列,最终得到1,818个候选适体。然后,基于序列使用t-SNE对候选序列进行降采样,并在每个t-SNE簇中选择MPBind评分最高的序列,最终选出20个RNA核酸适体,将其中有活性的15个适体展示了相对荧光排名、与任何Mango适配体的最大序列相似性以及与适配体1的序列相似性,相对荧光以适配体1为参考(虚线表示)(图2g)。最后选取了排名前三的适体(Apt 2-4)进行了进一步结构表征,发现与Mango-III结构差异很小(图2h)。这表明它们可能部分地通过类似于芒果适配体的机制发出荧光。为了进一步研究生成的适配体的发光机制,作者使用可与TO1-biotin结合并产生荧光的三种小分子G-四链体结合物进行抑制实验。数值经归一化处理,荧光强度相对于无抑制剂的RNA(除随机36核苷酸RNA外,该RNA相对于Mango-III值进行归一化)(图二h),并使用QUMA-1染料检测活性RNA适配体中的G-四链体(图二i)。结果表明,适配体1-4存在G-四链体,其荧光机制与Mango-III相似,与作者利用结构预测来设计新RNA序列的概念一致。
图2生成的发光RNA核酸适体的荧光实验验证、优化及机理研究
总结:
与传统的耗时且资源密集的方法如SELEX相比,研究提供了一个从头设计RNA序列的计算平台,能极大缩短RNA设计的时间并且极其高效。鉴于当前RNA结构预测精度的限制,RhoDesign未来将可以结合更加精确的结构预测工具,来进一步提高其设计能力。而且随着更多实验测定的RNA结构的公开,RhoDesign平台也可扩展并用于设计具有多种功能的其他类型RNA,如riboswitch和ribozyme等。
本课题组常年全球招募具有具有化学、生物、医学、材料、人工智能、信息科学等相关背景的博士后和科研助理。
有意者请将个人简历发送至dahan@sjtu.edu.cn,并抄送guopei@ibmc.ac.cn,邮件主题为“应聘职位+姓名+研究方向”。
具体招聘信息可点击此处查看详情。
撰稿:董宇航
校对:彭瑞资
编辑:江言