NAT BIOMED ENG丨癌症患者血浆中重复序列来源RNA的分析
今天分享的文献是今年8月31日发表在《nature biomedical engineering》上的《Profiling of repetitive RNA sequences in the blood plasma of patients with cancer》。
通讯作者Daniel H. Kim博士是加州大学圣克鲁斯分校生物分子工程系的助理教授,也是UCSC基因组学研究所、RNA分子生物学中心、干细胞生物学研究所和加州定量生物科学研究所的教员。他所在的实验室利用基因组和基因组工程技术,研究非编码RNA在干细胞和癌症中的功能。
生物细胞中的DNA序列里面包含许多重复序列(repeated sequence),主要可分为两大类,分别是串联重复序列(也叫串接重复序列,Tandem repeat)与散置重复序列(Interspersed repeat,也被称为转座子TE,transposable element)。细胞游离RNA(cell-free RNA)主要通过全外显子组RNA测序的分析模式(RNA-seq)进行分析,这其中就没有包括重复序列来源RNA和其他非编码RNA及核糖体RNA。在往期研究中,研究人员在对健康个体的人类血浆中cell-free RNA测序时发现了许多注释良好的非编码RNA,其中也发现了一小部分重复序列来源的cell-free RNA (1-2%)。然而,重复序列来源的cell-free RNA在疾病背景下的诊断潜力仍然未知。
研究人员利用RNA测序技术,同时检测编码和非编码RNA。研究人员建立了一个用于cell-free RNA定量的自定义转录组注释,该注释包含了注释良好的编码和非编码RNA(即GENCODE数据库)以及在人类基因组中发现的超过500万个重复序列(即RepeatMasker数据库)。研究人员将单个重复序列的RNA信号聚合到亚家族水平,将重复序列特征的数量从超过500万个减少到大约15,000个,以用于疾病分类和其他下游分析。与仅使用ENCODE数据库的编码和非编码RNA进行cell-free RNA定量相比,使用新的COMPLETE-seq技术(也就是使用新的注释库)显着提高了胰腺癌患者cell-free RNA数据中reads的比对百分比。对于健康对照人群的cell-free RNA,两种对比的比对率差异可以忽略不计。值得注意的是,胰腺癌患者和健康个体的cell-free RNA中比对上的重复序列的亚家族的总数之间没有显著差异。通过PCA分析,对胰腺癌患者和健康个体的cell-free RNA的两种比对数据进行分析均能较好地实现无监督疾病识别。与仅使用注释良好的GENCODE编码基因和非编码基因进行无细胞RNA定量相比,使用新的比对模式增加了胰腺癌患者cell-free RNA数据的样本间相关性。
图1:使用的COMPLETE-seq进行cell-free RNA分析
为了确定cell-free RNA的重复序列的类型,研究人员首先在超家族水平上进行分析。在健康个体中,仅有小于10%的cell-free RNA reads对应于重复序列。而在几乎所有癌症患者中都发现了更大比例的重复序列的cell-free RNA,而其中大多数cell-RNA的重复序列来源都来自于SINE(短散在重复序列)。蛋白质编码RNA、lncRNA、长末端重复序列(LTR)、SINE和简单重复序列超家族的含量在健康人与胰腺癌病人中都存在显著差异。这些差异表明,在癌症等疾病的背景下,不同类型的cell-RNA的丰度会发生动态变化。
图2:重复序列来源的cell-free RNA在不同疾病中具有特异的表达模式。
为了进一步表征重复序列的cell-free RNA的特征,研究人员同时使用纳米孔技术和Illumina二代测序技术对来自胰腺癌症患者的cell-free RNA样本进行测序。对于SINE来源的cell-free RNA,观察到了特征的双峰的长度分布,对应着全长的约300nt长的Alu的RNA以及较短的半长的Alu的RNA。
图3:纳米孔测序揭示重复序列来源cell-free RNA特异性片段大小
接下来,研究人员进行了差异表达分析,发现Alu亚家族是胰腺癌患者游离RNA中富集程度最高的重复序列信号,与健康个体相比,胰腺癌患者中AluY、AluSc、AluSg7、AluSc8、AluSx3和AluSg亚家族元件富集程度最高。通过分析胰腺癌cell-free RNA中Alu元件和简单重复序列,无监督聚类就可以实现对于胰腺癌患者的完美鉴别。
为了证明COMPLETE-seq技术在RNA液体活检中用于癌症诊断的普遍性和适用性,研究人员使用COMPLETE-seq定量分析了肺癌、肝癌、食管癌、结直肠癌、胃癌和健康对照人群的cell-free RNA-seq数据,发现每种癌症类型都具有特定的重复序列cell-free RNA模式。差异分析的结果表明,这些重复序列来源的cell-free RNA的种类及比例都发生显著变化(P < 0.05)。
图4:5种不同癌症中cell-free RNA的差异表达模式
研究人员使用基于cell-free RNA-seq数据进行诊断建模,将带有重复序列数据的优化模型与不带有重复序列数据的初始模型进行比较,观察到曲线下面积(AUC)和训练灵敏度的增加。其中由于肝癌病人血液中的cell-free RNA具有较多的重复序列,在引入重复序列的panel灵敏度上升显著。值得注意的是,研究人员观察到重复序列对疾病分类有癌症特异性差异。
该研究揭示了使用COMPLETE-seq技术进行cell-free RNA分析的价值和实用性。研究发现,重复序列来源的cell-free RNA在健康个体中通常处于低水平或不可检测水平,而在肿瘤病人中特异性存在。但在实现COMPLETE-seq的临床应用之前,未来需要对其他早期癌症类型中生成更大、更多样化的cell-free RNA转录组数据集,以进一步提高诊断性能,更准确地反卷积cell-free RNA转录组,从而确定癌症组织的起源。使用COMPLETE-seq进行多癌早期检测前还需要更大规模的前瞻性研究来评估其在无症状人群中的分类性能。