Nat Method丨校正UMI中的PCR扩增错误以生成测序分子的准确数量
大家好,今天介绍的文献是24年2月发表在NatureMethod的Correcting PCR amplification errors in unique molecular identifiers to generate accurate numbers of sequencing molecules。
作者介绍
本文的通讯作者是牛津大学的Adam Cribbs教授,Cribbs实验室旨在从功能基因组学的角度理解疾病生物学;通过对基因调节、蛋白质和生物通路的机制的理解,了解疾病的进程,希望最终以此发现治疗疾病的新治疗靶点。
背景补充
这篇文章的研究目的是纠正PCR扩增过程中在唯一分子标识符(Unique Molecular Identifiers, UMIs)中产生的误差,以生成准确的测序分子数量。
作者指出PCR错误是影响RNA分子绝对计数准确性的一个被低估的因素,尤其是在大规模和单细胞测序数据中。
图中描述了在测序过程中,由于PCR扩增和测序错误导致的UMI计数增加的情况:
a.理想情况下,不同转录本(两个蓝色和两个绿色)被标记有独特的分子标识符(UMIs),然后进行PCR扩增。由于PCR扩增偏差,较长的转录本比短的转录本具有更低的扩增率。测序读取然后根据UMI集合分组,并在这些组内合并以匹配原始的转录本数量。
b.在实际情况中,PCR扩增和测序过程中会发生错误,这可能导致UMI计数增加。如图所示,UMI内发生一个错误,导致最终库中独特UMI的计数高于实际输入转录本的数量。这种现象可能影响下游分析,并可能导致假阳性结果。
1.方法设计
本文的方法的主要创新涉及两个方面,结合特殊UMI的设置和“多数投票”方法来进行错误纠正,即是前期建库时采用同源三聚体核苷酸块合成的UMIs,在数据处理时,评估三聚体核苷酸的相似性,根据最频繁的核苷酸来进行错误纠正。
此外,该方法具有良好的兼容性:同源三聚体形式的UMIs可与ONT (Oxford Nanopore Technologies)、PacBio或Illumina,常见的二代和三代测序平台兼容。
该课题组在2022年于Nature Biotechnology上发表相似方法,使用同源二聚体形式的UMI进行错误检测。
2.矫正效率验证
接下来,作者比较不同测序平台的校正效果。比较了使用Illumina、PacBio和ONT平台进行测序后,通过同源三聚体校正方法正确测序并校正的CMI(Common Molecular Identifiers)的百分比。结果显示,使用同源三聚体纠错方法后,Illumina、PacBio和ONT的CMIs正确调用率达98.45、99.64和99.03%。
为了辨别测序和PCR错误,作者增加PCR循环数扩增了CMI标记的cDNA文库,并使用ONT进行测序,结果表明由于条形码准确度高,同源三聚体校正提供的改善可以忽略不计;然而,随着PCR循环的增加,CMIs中的错误数量显著增加。同源三聚体方法能够纠正CMIs中观察到的相当大比例的误差,这表明PCR可能是UMI误差的重要来源。
此外,作者还针对UMI-tools和TRUmiCount对同源三聚体纠错进行了基准测试,发现纠错有了实质性的改善。
接下来,作者进行实验:用CLK1剪接激酶抑制剂处理尤文氏RM82肉瘤细胞,诱导剪接扰动,从而能够观察到大幅的转录本差异,随后进行测序。
在比较单体UMI校正与同源三聚体校正方法时,发现剪接抑制和对照条件之间差异表达的基因和转录物的数量存在差异,对于基因和转录本,观察到不一致率分别为7.8%和11%。
单体UMI-tools校正后比同源三聚体校正后更多的基因受到差异调节,例如校正后TEL5和FRG2基因的读取计数,体现出该方法对于下游分析的稳健性。
背景补充:单细胞RNA测序
以10×genomics为例,测得的DNA片段包括Barcode、UMI、PolyT和目标片段。Barcode是16个碱基长度的序列,共有400万种,一个微珠是对应一种Barcode,通过Barcode可以把不同细胞区分开。UMI是一段随机序列,在每个细胞所在的液滴中,每一个DNA分子对应不同的UMI序列。
homotrimeric UMIs 在单细胞测序中的应用
为了解PCR误差对单细胞测序准确性的影响,作者使用具有单体UMI的10X genomics检测人和小鼠的混合细胞。文库在经10轮PCR循环后分为两份,进行额外扩增,使最终循环数分别达到20和25。接下来使用ONT的PromethION平台并在分配细胞条形码后对该文库测序,并对得到的数据进行过滤,聚类分群和细胞注释。
结果显示经25个PCR循环的文库比经20个PCR循环的文库,具有更多数量的UMI。这表明PCR错误导致转录本计数不准确以及UMI计数偏大。此外,作者进行基因表达差异分析,结果突出PCR错误对转录本计数的影响。
作者使用带有三聚体条形码的微珠,制备人和小鼠混合细胞的检测体系,用CMI进行逆转录和模板转换,并开始10个PCR循环。在测序前,将PCR产物四等分,分别进一步扩增至20、25、30和35个PCR循环。结果表明,随着PCR循环次数的增加,具有准确CMI的读数百分比降低,表明同源三聚体校正能够达到CMI序列的96-100%准确率,突出该方法能够有效去除PCR引入的误差。
随后,作者使用ONT的PromethION平台对经历20和25个PCR循环的文库测序,结果表明,通过在条形码区域内掺入同源三聚体,实现回收细胞数量的增加,尽管很低(~15%)。以ENST00000330494为例,对比单体UMI和经同源三聚体校正的差异分析,发现单体UMI去重复导致20和25个循环文库之间超过300个差异调节的转录本,然而,同源三聚体校正后没有表明任何显著差异调节的转录本。在25个循环的单体UMI校正后具有高计数的转录本,在同源三聚体UMI校正后发现相对减少,体现出同源三聚体UMI在单细胞转录组检测中,纠正错误的稳健性。
小结
本文提出的同源三聚体UMI方法为提高测序数据准确性,优化分子计数,提供了有效的通用改进方案,同时提高对下游生物学分析的可靠性。