NAT BIOTECH丨使用 PRPS 从大规模 RNA 测序数据中去除不需要的变异
这次分享的文献是2022年9月15日澳大利亚沃尔特和伊丽莎.霍尔医学研究所的Terence P. Speed和Anthony T. Papenfuss教授联合在《 Nature Biotechnology》上发表了 “Removing unwanted variation from large-scale RNA sequencing data with PRPS”。
概述:
在这篇文章中,作者揭示了三种非必要变异的来源(文库大小、肿瘤纯度和批次效应),并展示了这些来源如何明显影响下游分析;并提出了一种标准化方法,模拟样本的模拟重复策略(PRPS),用于去除RNA-seq数据中由文库大小、肿瘤纯度和批次效应引起的变异;还对三个TCGA RNA-seq数据集使用不同方法进行数据标准化,对比证明PRPS能够显著去除非必要变异影响,便于整合和归一化来自多个不同实验室或平台的大型转录组数据集。
作者简介
Terence P. Speed,澳大利亚沃尔特和伊丽莎.霍尔医学研究所的高级首席研究科学家。他的主要研究领域是计算生物学、基因表达、数据挖掘、基因和转录组。关注基因组、转录和健康老龄化,深耕于数据标准化和数据挖掘领域。
背景:
标准化是RNA测序(RNA-seq)数据分析的一个重要步骤,标准化的目的是去除不同来源的不必要变异,使基因表达量在样品内和样品间具有可比性。在癌症RNA-seq数据中,样本内标准化根据基因长度、GC含量和细胞组成进行,而样本间标准化应消除文库大小、肿瘤纯度和批次效应对数据的影响。这些非必要变异(unwanted variation)会引入人为的、不确定的误差,导致错误或遗漏,进而产生误导性的生物学结论。但如何从RNA-seq数据中有效去除这些变异仍然是一个挑战。
大多数消除文库大小变化的RNA-seq标准化方法常使用基于原始计数数据的统计特征计算的全局缩放因子来调整文库大小变化。目前大部分RNA-seq标准化只是将样本中的所有基因数除以一个比例因子来调整文库大小。单细胞RNA测序数据中已经有文章讨论了基因水平计数和文库大小之间的偏差(并且不能通过单一因子的简答缩放来消除);作者认为在RNA-seq数据中也存在这样的问题但目前尚未被认识到。
肿瘤纯度,即实体肿瘤组织中癌细胞的比例,是癌症RNA序列数据变化的另一个主要来源。这种变异被视为肿瘤样本的内在特征,并与不同癌症类型患者的几个临床结果相关。但在肿瘤特异性表达的研究中,肿瘤纯度被认为是不必要变异的来源。肿瘤纯度的变化会影响样本内和样本间基因表达的比较,影响下游分析。目前的标准化和批量校正方法无法从数据中消除这种变化。有研究提出使用回归模型调整肿瘤纯度变化的计数,但是生物信号与纯度容易混淆,即有可能去除需要的生物信号。
批量效应是大规模RNA-seq研究中不必要变化的重要来源之一。大多数批次校正方法基于线性回归。这种方法的隐含假设是,生物种群在每个批次中均匀分布,即批次和生物条件之间没有关联。然而,如果存在这种关联,则校正批次的基因表达计数使用这些方法的效应可能会伴随着批量效应而消除生物信号。
作者之前开发了一种标准化方法,称为去除不需要的变异III(RUV-III)。RUV-III方法是一种线性模型,通过该模型,可以通过技术重复和阴性对照基因(阴性对照基因定义为不受研究生物学影响的基因,而不是不被表达的基因)推断已知和未知有害因素的存在和影响。还提出了一种在技术复制不可用时使用伪复制的方法。然而,RUV-III有两个局限性。首先,在技术重复不可用或在不需要的变化源之间分布良好的情况下,它不能有效使用。其次,由于样本的肿瘤纯度在其所有技术重复中基本相同,原始RUV-III无法使用标准技术复制品来估计和消除这种变异。
为了解决这个问题,研究人员创建了模拟样本(PS)——其基因表达值是5-10个样本表达值的平均值,这些样本具有相同的生物学特性和不必要变异。然后,具有相同生物学特性但具有不同水平的不必要变异的PS组被认定为模拟重复(PR ),将它们的主要基因表达差异作为RUV-III的不必要变异,即RUV-III-PRPS。
研究结果:
首先,研究团队使用直肠腺癌(READ)、结肠腺癌(COAD)和乳腺浸润性癌(BRCA)的RNA-seq数据集分析了无关变异对下游分析的影响,并证实了RUV-III-PRPS在这些数据集中应用的性能和有效性。如图所示,无论是原始的还是标准化后的,所有数据集都受到文库大小、肿瘤纯度和批次效应这三个主要来源的极大影响。
在TCGA READ RNA-seq数据集中,研究团队利用RUV-III,去除了文库大小对基因的影响。结果显示,RUV-III-PRPS方法有效消除了文库大小对TCGA READ RNA-seq数据的影响,能够生成更好的基因-基因共表达的下游分析以及基因表达与生存的关联。
在TCGA BRCA RNA-seq数据中,研究团队评估了PRPS消除肿瘤纯度以及文库大小、流细胞化学和批次效应)对数据影响的性能,并使用TCGA微阵列数据作为正交数据,比较了不同归一化数据集中的基因表达模式及其相关性。对比结果表明,RUV-III标准化数据与微阵列数据的一致性远远优于两个TCGA标准化数据集(FPKM、FPKM-UQ)。
总结:
研究团队提出了一种称为模拟样本的模拟重复(PRPS)策略,搭配使用同课题组于开发的标准化方法RUV-III(去除非必要变异III)构成方法RUV-III-PRPS,RUV-III-PRPS能够去除由文库大小、肿瘤纯度和批次效应引入的变异,使下游分析更准确,可用于大型转录组数据集的整合。