eBioMedicine | 对全谱cfRNA进行综合评估突出了用于早期肝细胞癌检测的cfRNA片段
有关作者:
本文的通讯作者是来自海军医科大学流行病学教研室的殷建华教授、清华大学生命科学学院合成与系统生物学研究中心的鲁志教授、天津医科大学肿瘤研究所肝胆肿瘤研究中心的 Zhi John Lu教授,研究方向分别为流行病学,生物信息学、系统生物学等领域如基因组中新型非编码RNA基因的发掘和功能研究,肝胆肿瘤研究。
研究背景:
肝癌是第三大全球癌症相关死亡原因,肝细胞癌(HCC)占原发性肝癌的75%-85%,高危人群,包括慢性乙型肝炎(CHB)和肝硬化(LC)患者,这些患者的HCC年发病率分别为0.3-0.6%和2.2-3.7%。HCC的早期发现至关重要,早期诊断的HCC患者的生存时间明显延长。超声和血液检查是目前主要的无创HCC早筛方法。当下研究表明在HCC中具有诊断能力的血液生物标志物:循环肿瘤细胞 (CTC)、循环肿瘤 DNA (ctDNA)、蛋白质、代谢物、肿瘤培养的血小板和游离 RNA (cfRNA)。
cfRNA因具有敏感性(差异RNA表达、RNA转录后事件)、功能性(反映动态变化、提供功能学信息)、特异性(组织、肿瘤类型和亚型)、低成本(RT-qPCR检测)等优势,是当下的研究热点,各种研究报道了多种 cfRNA 亚型(miRNA、lncRNA-HULC、mRNA 、srpRNA、snoRNA、circRNA、tRNA)作为检测HCC 的无创生物标志物,然而,由于样本量、实验方法、数据分析和过拟合风险的差异,不同研究的结果有时是矛盾的。 因此,需要以统一的方法证明所报道的生物标志物的可重复性和稳定性。
在这项工作中,作者通过对文献和cfRNA-seq的系统评价和综合分析,选择了23个候选生物标志物,涵盖全谱cfRNA类型、转录后失调事件(选择性剪接(AS)、选择性多聚腺苷酸化(APA))和cfRNA结构域,并在3个独立队列中选择、算法开发和独立验证得到6个性能较好的cfRNA特征(1个lncRNA-CYTOR、1个miRNA-miR-21-5p、1个AS候选物-GGA2、3个cfRNA结构域-WDR74、SNORD89、RN7SL1)。作者将6个cfRNA特征与AFP结合构建了一个经济有效的非侵入性HCC检测模型—“HCCMDP”,在早期HCC检测中表现出良好的灵敏度84%,特异性86%。
结果与讨论:
1.用于 HCC 检测的全谱游离 RNA 生物标志物的分析和验证概述
作者分4个阶段评估和验证了全谱 cfRNA 生物标志物:发现、验证、算法开发和独立验证阶段。在发现阶段,系统地回顾已发表的cfRNA生物标志物,并进一步荟萃分析,根据报告统计学量: 可重复性(独立研究的数量)、可信度(样本量)和诊断准确性(报告的AUC和特异性),最终选择了14个已发表的候选标志物(图1a)。同时,为填补以前研究很少报道的生物标志物类型的空白,作者还从mRNA、cfRNA结构域和转录后失调事件(选择性剪接(AS)、选择性多聚腺苷酸化(APA)和嵌合RNA)这3个角度分析了小型和总cfRNA-seq数据集,根据计算的统计学量:丰度、差异表达、分类性能、异质性(gini和ratio),以及进一步的筛选条件,最终筛选出9个标记(图1b)。在验证、算法开发和独立验证阶段,上述 23个候选标志物通过 RT-qPCR 进行了进一步验证、选择和验证(图1c)。
图1 用于 HCC 检测的全谱cfRNA 生物标志物的分析和验证概述
2.从系统文献综述中选出的用于 HCC 检测的候选 cfRNA 生物标志物
在发现阶段的第一部分,通过Pubmed、Embase和Cochrane图书馆的检索,共找到3008条记录,最后纳入了130篇文章,共涉及301,28个样本,包含150种独特的生物标志物,选出14个候选标志物,包括miRNA、 lncRNA、circRNA 和 cfRNA(srpRNA和tsRNA)(图2)。
图2. 从系统评价中选出已发表的cfRNA生物标志物
3.源自 HCC 总 cfRNA-seq 数据集的候选生物标志物
在发现阶段的第二部分,作者全面分析了从 258个样本中测序的总和小 cfRNA-seq 数据,以研究系统评价中未挑选出的 cfRNA 类型。从总cfRNA-seq数据中,我们选择了3个差异表达的mRNA。对于AS和APA,通过应用截断值“|log2FC|>1,FDR<0.05”,分别选择了 1 名和 2 名候选标志物。总之,作者从总cfRNA-seq数据中选择了3个mRNA和3个转录后事件(图3)。
图3. 从总cfRNA-seq数据中选择了3个mRNA和3个转录后事件
4.cfRNA结构域系统地描述了在小型cfRNA-seq数据集中捕获的cfRNA片段
作者将小型cfRNA-seq数据集捕获的cfRNA片段描述为“cfRNA结构域”,定义为在长 RNA(>50 nt)内富集有小RNA读数的小峰(>10 nt),统计学定义即最小读取覆盖率、峰长、局部最大值及其半值以及样本之间的重复(图4 a-b)。cfRNA结构域增强了其相应全长转录本的分类能力(图4 c),具有低 icSHAPE 反应性(95%CI的平均估计值:结构域组0.18(0.17,0.20);背景组0.21(0.19,0.23)), 是高度结构化的(图4 d)。cfRNA结构域倾向于与RNA结合蛋白(RBP)进行结构和关联,其RBP富集比例高于所有类型RNA的背景中RBP富集比例,用少量 cfRNA-seq 数据筛选得到了 3 个至少结合一个RBP的 cfRNA 结构域作为进一步验证的候选结构域,其中 WDR74 具有预测的二级结构,可能有助于候选标志物在血液中的稳定性(图4 e-f)。
图4. cfRNA 结构域系统地描绘了由小 cfRNA-seq 捕获的 cfRNA 片段
5.处于验证阶段的cfRNA生物标志物
在独立验证队列中,作者通过RT-qPCR验证23个候选标志物,分别使用miR-30 、GAPDH 标准化短和长RNA RT-qPCR的Ct 值,去除超出质控范围(Ct >37,表明含量很低)的circRNA 、mRNA 和lncRNA,最后筛选得到6个性能较好的cfRNA 标记物:1个lncRNA(CYTOR)、1个miRNA(miR-21-5p)、3个cfRNA片段(WDR74、SNORD89、RN7SL1)和1个选择性剪接候选物(GGA2)进入验证阶段。这 6个 cfRNA 标记物中有一半属于 cfRNA 结构域,表明了这种类型的重要性。据报道,6 种选定的标志物都参与肿瘤增殖和转移(图5)。
图5.选定的候选生物标志物在验证队列中的表现
6.算法开发和独立验证表明,HCCMDP是一个有效的panel
作者将选定的6个cfRNA结合AFP,基于随机森林算法开发队列(n = 287)进行训练 HCCMDP(HCC 分子检测面板),使用 500 次引导来估计 AUC,以评估面板的性能。结果表明,HCCMDP可以区分所有对照组的全期HCC,平均AUC为0.860,CHB组的平均AUC为0.832,LC组的平均AUC为0.819。所有对照组早期HCC的平均AUC值分别为0.846、CHB为0.816和LC为 0.801 ,AUC均>0.800(图6a)。
在独立验证队列(n = 171)中进一步对HCCMDP进行了外部验证。HCCMDP在鉴别HCC和早期HCC与高危人群方面仍然良好:HCC vs CHB:AUC = 0.909;HCC vs LC:AUC = 0.916;早期HCC vs CHB:AUC=0.917;早期HCC与LC:AUC=0.928,AUC均>0.900(图6b-c)。
综上,与AFP的性能相比,HCCMDP在区分高危人群时具有显著提高的敏感性,特别是在区分早期HCC患者时达到了84%的敏感性和86%的特异性,而AFP的敏感性为67%。
图6. HCCMDP 在算法开发和独立验证队列中的表现
总结:
1. HCCMDP
通过文献和cfRNA-seq的系统评价和综合分析,鉴定了全谱cfRNA生物标志物,并进行多中心队列验证得到6个cfRNA,结合传统蛋白标志物AFP,开发一个非侵入性且经济快速的HCC早筛面板-“HCCMDP”,灵敏度为84%,特异性为86%,为更大的前瞻性队列中的生物标志物选择提供了指导。
2. cfRNA domain
描述在小型cfRNA数据集中捕获的cfRNA片段, cfRNA 结构域往往具有RBP和二级结构,这可能会增强它们在血液中的稳定性,从而增强面板在面对大队列患者异质性时的稳健性,揭示了cfRNA结构域的生物标志物潜力。