Nat Commun丨末端修饰独立的无细胞 RNA 测序使敏感的早期癌症检测和分类
大家好,今天与大家分享的是今年1月发表在《Nature Communications》的研究论文,题为“Terminal modifications independent cell-free RNA sequencing enables sensitive early cancer detection and classification”。这篇文章中作者主要介绍了一种基于该团队先前的研究成果Direct S-Poly(T)Plus基于荧光定量PCR的小分子RNA定量检测技术,加以改良优化从而诞生的一种新的血浆cfRNA文库制备技术,名为Splint Ligation and Phosphate-independent RNA Sequencing (SLiPiR-seq),衔接连接与磷酸独立RNA测序(SLiPiR-seq),该技术具有不依赖RNA末端修饰的优势,因此即使只用微量血浆(至少100微升)也依然能得到准确可靠的检测结果在揭示血浆转录本与病理机制的关联等研究中具有很好的前景。
一、作者介绍:
本篇文章的通讯作者是深圳大学苟德明教授,深圳市“鹏城学者”特聘教授。他的研究方向主要包括:肺动脉高压研究,研究RNA在血管重塑中的作用,以确定新的治疗靶点和技术;血浆cfRNA高通量测序和临床翻译应用,利用SLiPiR-seq构建高通量血浆cfRNA测序数据库,通过表达分析和机器学习识别疾病特异性生物标志物,并开发各种疾病的临床诊断模型。作者也取得了一些进展和系统性、原创成果。截至目前,在相关领域国际权威学术期刊发表论文100余篇,申请专利27项,其中授权专利12项。
二、背景:
癌症的早期诊断及尽早治疗能够延长患者的生存时间,增加治愈的可能性。利用血浆中游离核酸进行液体活检可能辅助实现癌症早期诊断。血浆中游离RNA(cell-free RNA,cfRNA)代表了细胞外转录本的动态情况,肿瘤组织中相关转录物的变化可以通过血液中cfRNA水平的变化体现出来,因此cfRNA的研究具有广泛的临床价值。
然而,血浆中cfRNA的全面解析面临两个主要挑战:首先,提取效率低,需大量血浆(至少2毫升)进行检测;其次,cfRNA高度片段化,导致其具有多样的末端修饰结构,而传统的RNA-seq文库制备流程只对具有完整修饰末端的RNA片段有效,无法胜任对cfRNA的测序文库制备。因此,迫切需要新技术来有效处理低丰度和高度片段化的cfRNA样品。
三、研究结果:
图1. SLiPiR-seq工作流程的示意图
为了对高度片段化的cfRNA进行文库制备,作者团队优化了之前他们为高通量小RNA分析开发的S-Poly(T) Plus方法。这次的方法,是通过血浆收集到的极微量的cfRNA,加入polyA聚合酶对其3'端进行加尾修饰A,并且在一步反应中进行逆转录(图1a)。这里,作者团队设计了一种特殊设计的逆转录引物,该引物由oligo(dT)、样本barcode和测序接头序列组成。通过polyA识别,进行逆转录。在加尾/RT反应后获得带有5'接头的cDNA。然后使用外切酶I(ExoI)去除多余的引物。这是一个关键步骤,因为任何剩余的逆转录引物都会导致接头-引物连接(约160nt)(图1b,黑色箭头表示从RT引物和接头之间的连接得出的文库大小),这将显著影响信息性读取的比例和检测到的RNA数量(图1c),同时图1d的结果也再次验证逆转录引物的残留会对检出的RNA中种类造成影响,引物越多,能检测出的RNA种类数量越少(图1d)。随后,再经过退火去除原先的cfRNA序列,并加入一对3端修饰随机引物NNNNNN的双链作为尾部接头,然后通过使用USER酶切除尿嘧啶残基移除接头的封闭链,从而得到了5'端有标签3'端有测序接头的RNA序列,随后进行文库扩增和测序。移除封闭链可以显著提高文库扩增效率,通过促进引物结合(图1e)。
为了减少文库制备过程中RNA/DNA的损失,作者进一步优化了SLiPiR-seq协议,使整个工作流程在单管内兼容。为了生成稳定且可重复的转录组图谱,作者对SLiPiR-seq进行了广泛的基准测试,涉及血浆起始量(从12.5μl到400μl)和各种分析前条件的影响(即血浆分离前的血液静置时间和血浆的冻融循环次数)。研究结果表明,可靠的SLiPiR-seq结果的血浆输入下限为100μl(图1f,凝胶电泳显示不同起始起始体积的血浆(从12.5μl到400μl)产生的最终文库的大小)。该血浆起始量的要求显著低于大多数市售小RNA文库制备试剂盒的最低要求。未指定读数的比率随着起始血浆体积的减少而增加(图1g)。并且她们发现,在采血3、6和9小时后分离的血浆样品中,总cfRNA的回收率没有显着差异。此外,在反复冻融过程中cfRNA的量会显著减少。综上所述,他们决定在采血后3小时内分离血浆,并通过冷冻保存200 μl等分血浆,直到进行SLiPiR-seq以确保一个冻融循环。
图2. SLiPiR-seq的技术评估
为了评估SLiPiR-seq的测序结果是否能够准确代表血浆转录组的分子特征,作者将其与RNA定量的金标准qPCR进行了比较。图2a结果表明观察到SLiPiR-seq分析的读取计数与qPCR测量的Ct值之间存在高度一致性(图2a)。表明SLiPiR-seq可以准确地分析血浆转录组。
利用夹板连接,作者假设 SLiPiR-seq 可用于独立于cfRNA的5'-末端磷酸化来分析cfRNA,从而提供更广泛的cfRNA库覆盖范围。为了验证这一假设,作者将SLiPiR-seq与基于接头连接的方法(NEBNext Small RNA Library Prep Set,NEBNext)进行了比较,该方法使用具有或不具有5'-P基团的合成小RNA。他们进行跑胶验证如图2b,结果表明(黑色箭头表示RT引物和接头的连接产物的大小。红色箭头指示正确的cfRNA文库大小),无论是否存在5'-P基团,SLiPiR-seq都可以可靠地构建测序文库。然而,当使用缺乏5'-P基团的RNA时,NEBNext 的接头连接失败(图2b)。
图2c结果也表明,SLiPiR-seq生成的测序读数在相同的文库输入量下显示两组之间没有差异,而NEBNext仅在存在5'-端磷酸化时才表现出敏感性。随后,作者比较了这两种文库制备方法在检测人血浆样本中cfRNAs的能力(图2c)。图2d结果显示,作者所开发的SLiPiR-seq检测方法,检测到的总RNA种类是NEBNext的3.68倍(65204 vs. 17696)(图2d)。SLiPiR-seq检测到17932种mRNA和12236种lncRNA,分别是NEBNext的4.37倍和14.34倍。此外他们还发发现,通过与人类蛋白质图谱数据库中各种组织的组织特异性基因进行交叉分析,SLiPiR-seq检测到的大量mRNAs显示出组织特异性的高表达模式(图2e)。与NEBNext相比,SLiPiR-seq显示出显著增加的mRNAs(7.9% vs. 1.9%)和lncRNAs(8.4% vs. 0.7%)比例(图2f)。
此外,mRNAs和lncRNAs的片段大小在SLiPiR-seq中显示出更平滑的分布和更广泛的覆盖范围,正如峰度值所示(图2g,右上角显示的百分比值对应于(f)中的RNA比例)。miRNAs在NEBNext结果中是主要的RNA类型(60.7%)(图2f),这与血浆miRNAs以5'-P和3'-OH末端的经典形式存在的事实一致。尽管miRNAs在SLiPiR-seq中占总cfRNAs的比例较低(10.3%),但两种方法检测到的miRNAs表达水平高度相关。此外,结果还表明两种方法之间其他RNA类型表达水平的低相关性,因为SLiPiR-seq识别的RNA种类比NEBNext更多。总之,这些观察结果表明,SLiPiR-seq具有巨大潜力,可以揭示血浆中与基因表达和调控相关的更多样化和完整的RNA种类的生物学意义。
图3. tsRNA、rsRNAs和ysRNAs的表征
对SLiPiR-seq揭示的tsRNA(14.4%)、核糖体RNA衍生的小RNA(rsRNA,6.0%)和Y RNA衍生的小RNA(ysRNA,9.6%)的丰富表达感兴趣(图2f)并认识到缺乏公开可用的rsRNA和ysRNA参考基因组,作者旨在建立与rRNA和Y RNA对齐的cfRNA参考基因组。作者将小RNA映射到母体rRNA(28S、18S、5.8S和5S rRNA)和Y RNA(RNY1、RNY3、RNY4和RNY5),并从比对输出中提取唯一序列,以确保对每个rsRNA和ysRNA的完整注释(图3a是rsRNA和ysRNA表征示意图。括号中的数字表示RNA的读取计数)。接下来,作者分析了SLiPiR-seq和NEBNext在表征tsRNA、rsRNA和ysRNA方面的差异。与NEBNext相比,SLiPiR-seq对应tsRNA的母体tRNA的氨基酸数量显著增加(图3b)。
此外,结果显示,由于RNA片段来自3'端的切割更可能缺乏5'-P基团,SLiPiR-seq鉴定出更高的总体测序深度和更广泛的3'端覆盖范围。例如图3c, d结果显示,SLiPiR-seq在tsRNA从3'端开始并在反密码子位置结束(3'-tRHs)或在反密码子位置之前结束(3'-tRFs)时显示了增加的读数计数(图3c, d)。对于NEBNext无法检测到的5.8S rRNA、RNY4和RNY5的3'端,这一发现尤为明显(图3e, f)。这些发现突显了SLiPiR-seq在血液中发现未被充分研究的小RNA方面的潜力。
图4.使用SLiPiR-seq鉴定差异表达的cfRNA
为了评估SLiPiR-seq技术在肺癌检测中的应用效果,该研究对139名肺癌患者和106名无癌症个体的发现队列进行了回顾性分析。如图4a结果表明,两个队列之间标准化测序读数的转录组范围比较显示Pearson相关性高,表明SLiPiR-seq具有稳健的重现性(图4a)。
图4b结果表明,大多数差异表达cfRNA在癌症患者中的表达增加,这与在癌症背景下更多的cfRNA被释放到循环中的事实一致(图4b)。差异表达cfRNAs最丰富的三类是rsRNA(73.4%)、tsRNA(8.3%)和piwi相互作用RNA(piRNA)(8.2%)(图4c)。图4d结果表明与对照组相比,可以观察到早期LC患者中差异表达cfRNA的累积表达水平显着增加,并且早期和晚期LC患者之间差异表达cfRNA的累积表达水平没有差异(图4d)。此外,热图中未观察到不同癌症阶段患者之间这些cfRNA的表达谱存在明显差异(图4e)。这些结果表明,SLiPiR-seq可以检测肿瘤发病机制早期发生的异常转录事件,使SLiPiR-seq成为早期癌症筛查的有前途的工具。
图5.早期肺癌检测中cfRNA特征的评估
为了探索不同种类的RNA在癌症检测中的潜力,作者进行了一系列机器学习分析。基于cfRNA计数的负二项分布模型在病例和对照之间确定了12840个差异表达的cfRNA。将上述队列随机分成80%作为训练集,用来训练机器学习诊断模型,将20%作为测试集,用来评估模型的区分效果。
采用了逻辑回归、随机森林、支持向量机三种机器学习算法来系统地评估九类RNA的肺癌诊断效果。为确保准确,研究团队对所有模型进行了100次随机取样和训练-测试过程的重复,根据100次模型迭代的中位数性能构建的ROC曲线。显示了验证队列中miRNA、snoRNA(核仁小分子RNA),snRNA(细胞内有核小RNA)、mRNA和tsRNA的结果。九类RNA训练的模型在测试集中均表现良好。
为了验证这些模型在检测早期肺癌方面的表现,作者使用SLiPiR-seq对一个独立的验证队列进行分析,该队列包括26名I期肺癌患者和27名无癌个体(图5a)。在所有候选cfRNA中,miRNA特征以最高的准确率检测到肺癌(LR AUC = 0.905)(图5b)。mRNA特征也显示出强大的肺癌检测性能。并且既往研究中很少研究的snRNA和tsRNA特征在检测肺癌方面也表现出相当大的能力(图5b)。这些观察表明,SLiPiR-seq在识别不仅是常见研究的(miRNA和mRNA),而且是罕见报道的(snoRNA(核仁小分子RNA),snRNA(细胞内有核小RNA)和tsRNA)cfRNA作为癌症生物标志物方面具有潜力。
由于癌症是一种高度异质性的疾病,并且作者开发的方法检测到了多种类型的差异表达cfRNA,所以作者进一步探究了结合不同类别的RNA是否能提高模型的准确性。为此,作者测试了五种候选cfRNA(即29种mRNA,26种miRNA,10种snRNA,19种snoRNA和38种tsRNA)的所有可能组合,这些cfRNA成功通过了三种机器学习算法的考验,总共形成了31种不同的组合。
为了确定最佳组合,他们在随后的分析中重点使用LR算法计算AUC、模型敏感性和特异性,以及癌症风险评分。测试集和验证队列中按AUC中位数排名的前三个最准确的组合分别是“mi+sn+sno”,“m+mi+sn+sno”和“mi+sn+sno+ts”(图5c)。实际上不是肺癌患者在癌症筛查的背景下,特异性通常比敏感性更重要。通过对所有组合的特异性进行排名,作者确定了普通人群中肺癌筛查的最佳面板。图5e结果表明“m+sn+sno+ts”组合训练的模型具更高特异性(发现队列中特异性100%;独立验证队列中特异性95.24%),更适用于肺癌早筛(图5e)。
图6. cfRNA特征在癌症分类中的应用
为了确定SLiPiR-seq的临床可行性,作者进一步探索了其识别癌症分类cfRNA特征的能力。他们将研究扩展到一个泛癌症患者队列,包括30名乳腺癌患者、37名结直肠癌患者、55名胃癌患者和15名肝癌患者。图6a热图是作者确定了五种癌症特异性面板(即21-cfRNA BRC panel、33-cfRNA CRC panel、36-cfRNA GC panel、33-cfRNA HCC panel和30-cfRNA LC panel)(图6a)。
图6b是作者使用t分布随机邻域嵌入(t-SNE)进行可视化,结果表明可以清晰分离五种不同的癌症类型(图6b)。作者还将所有癌症患者组合为一个名为“cancers”的组,与健康人进行比较,确定了在所有五种研究的癌症类型中普遍上调的65种cfRNA。图6c是作者对六组候选者进行了单类对其他类的机器学习分析,可以看到所有类别的保留测试集样本的AUC值很高(图6c)。作者随后评估了所有受试者的癌症风险评分以及五种癌症特异性风险评分。图6d结果表明健康人在所有六个面板中表现出低中位风险评分(图6d)。所有癌症患者在65-cfRNA通用癌症面板中表现出高癌症风险评分。使用上述独立验证队列(N = 53)验证这些面板的癌症分类性能。图6e结果表明,肝癌患者在65-cfRNA癌症面板和肝癌30-cfRNA面板中表现出高中位癌症风险评分,同时在BRC、CRC、GC和HCC模型中保持低风险评分。健康人在所有六个模型中均表现出低中位风险评分(图6e)。在独立验证队列中,健康人在上述6个癌症模型被评估为低风险值,且I期肺癌病人仅在通用癌症模型和肺癌特异模型中被评估为高风险值。因此,血浆cfRNA作为癌症生物标志物具有应用于临床诊断的巨大潜力。
总体而言,作者团队开发了一种灵敏而稳健的血浆转录组分析方法,能够处理低至100 µl输入血浆的样本,并分析不受其5'端修饰影响的cfRNA。作者团队的工作为深入研究cfRNA谱系奠定了基础,并强调了cfRNA作为临床应用中的癌症生物标志物的价值。尽管研究结果需要在更独立的队列中进一步验证,但这项原理验证研究为SLiPiR-seq未来的潜在临床应用提供了重要的见解,以检测cfRNA特征,从而实现灵敏和准确的早期癌症检测和分类。