韩 达 课 题 组

韩 达 课 题 组

PNAS丨通过片段组学的cf DNA 表观遗传分析

大家好,本次跟大家分享的文献是202210月发表在PNAS上面的Epigenetic analysis of cell-free DNA by fragmentomic profifiling。这项工作证明了利用cfDNA片段模式来推断cfDNA分子的甲基化模式的可能性,打破了亚硫酸氢盐测序的局限性。通过使用细胞苷磷酸鸟嘌呤(CpG)位点周围的cfDNA裂解谱,在深度学习算法的辅助下确定了从特定区域到单个CpG的甲基化状态。

一、作者介绍:

这篇文章的通讯作者是卢煜明,他被称为创产前基因检测之父。他致力于研究人体内血浆的DNARNA1997年发现孕妇外周血中存在游离的胎儿DNA,并发展出一套新技术来准确分析和度量母亲血浆内的胎儿DNA,被誉为无创DNA产前检测的奠基人。他的研究领域包括分子诊断学,无创性产前诊断以及癌症生物标志物。

二、背景:

cfDNA 片段组学是一个新兴且正在被积极追求探索的领域,具有广泛的生物学和临床意义。不同的组织,包括怀孕期间的癌细胞和滋养层,都会形成cfDNAcfDNA分子可能具有反映起源细胞的甲基化状态的能力。DNA分子大小、片段末端位置和末端基序受核小体组织、染色质结构、核酸酶含量和起源组织的基因表达的影响。在卢教授课题组之前的研究中,利用小鼠模型发现 DNA 核酸酶(例如DNASE1L3)在血浆 DNA 分子的产生中起重要作用。小鼠模型中核酸酶活性的缺陷导致血浆 DNA 分子的 DNA 甲基化谱发生改变。

三、研究结果:

在这项研究中,研究人员利用靠近 CpG 位点的片段化模式来推断其甲基化状态。片段化模式由相对于目标CpG的特定碱基范围内每个位置的cfDNA片段末端的频率描述,称为切割谱。在以CpG位点为中心的11-nt基因组窗口内,根据每个碱基的切割比例(即片段末端相对于测序深度的百分比)构建切割谱,他们将这种11-nt的基因组窗口称为切割测量窗口。这种切割谱根据CpG位点的甲基化状态而有所不同,为使用片段组学特征进行甲基化分析提供了基础。该研究尝试构建一种简化的甲基化分析,进一步关联了两种类型的末端基序(CGN NCGN 代表 ACG T 的任何核苷酸),这些核苷酸是由与 DNA 甲基化相关的测量窗口中的差异切割产生的。此外,研究人员探索了使用深度学习并通过切割曲线推断单个 CpG 分辨率下甲基化状态的可行性。他们将这种基于片段组学的甲基化分析称为 FRAGMA

1 cfDNA分子的FRAGMA示意图

1DNA甲基化直接影响cfDNA的裂解谱

为了研究DNA甲基化和cfDNA片段化之间的关系,研究人员基于此前研究中8名健康对照组血浆DNA的亚硫酸氢盐测序结果,检测了与高甲基化和低甲基化CpG位点相关的裂解概况。高甲基化和低甲基化的CpG位点分别定义为甲基化指数(即甲基化胞嘧啶的百分比)>70%<30%CpG位点。高甲基化的CpG位点(位置0)的裂解比例是低甲基化CpG位点2倍(图2A)。cfDNA的裂解概况和预先设定的甲基化模式之间的关系可以在配对的非亚硫酸氢盐测序数据中重现(图2B)。

研究人员进一步研究了跨越0123个窗口位置的两个串联CpG二核苷酸的甲基化构型如何影响切割谱。当两个CpG位点都被高甲基化时,2位点的切割比例显著提高(图2C)。当串联CpG位点的甲基化状态相反时,高甲基化胞嘧啶的裂解比例增加(0位高甲基化位点的裂解比例增加)(图2D)。这些结果表明,DNA甲基化与cfDNA的裂解模式相关,CpG位点裂解比例的高低与甲基化高低相关。

2裂解比例取决于CpG的甲基化状态

 

2cfDNACGN/NCG基序比值反映了其甲基化水平

    甲基化 CpG 位点可能会在 CpG 环境中赋予胞嘧啶更高的 cfDNA 切割概率,但未甲基化位点可能不会。切割测量窗口内的这种甲基化依赖性差异片段化会导致 CGN/NCG 基序比率发生变化。因此,cfDNA0位和1位相对于CpG位点的不同切割,取决于甲基化状态。甲基化的CpG位点趋于在0位点有更多的末端,就是会在CPG环境下的胞嘧啶上具有更高的切割概率,在5 形成CGN基序的富集,但是在CPG环境之前的一个碱基上的切割概率更低,就是在-1处较少,减少了5 NCG基序的富集。而未甲基化的CpG位点则减弱了这种情况,作者期望在高甲基化的CpG位点上观察到更高的CGN/NCG基序比率。

对于健康对照组的血浆DNA样本,高甲基化CpG位点的CGN/NCG基序比显著高于低甲基化位点(图3B)。因此,来自基因组区域cfDNA分子的CGN/NCG基序比可以用来揭示该区域的甲基化水平。随后研究人员通过亚硫酸氢盐测序结果,分别测量了8个健康对照样本的全基因组、Alu区和CpG岛的cfDNA分子的甲基化密度。与整个人类基因组的整体甲基化水平相比,Alu区域的甲基化水平较高,而CpG岛的甲基化水平较低(图3C)。图3D图是全基因组、Alu区和CpG岛的CGN/NCG基序比值,与图3C图测定的甲基化结果对应。这些结果表明cfDNA相对于CpG位点(0-1)切割比例的差异取决于甲基化状态,并且最终将导致末端基序的差异(图3D)。为了进一步研究基于CGN/NCG基序比的甲基化分析可以达到的分辨率,研究团队分析了来自一个涉及基因组印迹的等离子体DNA分子,结果表明,单核苷酸多态性(SNP)位点上携带G等位基因的DNA片段未甲基化,而携带A等位基因的DNA片段被甲基化。与携带G等位基因的cfDNA片段(未甲基化)相比,携带A等位基因(甲基化)的cfDNA片段显示出更高的5 CGN末端基序频率和更低的5 NCG末端基序频率(图3F)。这些结果表明,CGN/NCG基序还可以反应等位基因特异性甲基化模式。

3CGN/NCG基序比率分析

3DNASE1L3在甲基化感知碎片化中发挥作用。

研究人员对脱氧核糖核酸酶 1 3DNASE1L3 - deoxyribonuclease 1 like 3 GeneDNASE1L3)活性是否影响cfDNA裂解谱进行了探究,在DNASE1L3缺乏症患者的血浆DNA中,前面所述的cfDNA位置特异性的切割模式显著减少(图4A)。由于DNASE1L3活性介导的切割改变,在DNASE1L3缺陷患者中,高甲基化和低甲基化CpG位点之间的CGN/NCG基序比例的差异显著减少(大约从4倍的差异到1.3倍的差异)(图4B)。图4C是来自健康对照组(左)和DNASE1L3缺陷患者(右)的血浆DNA样本的全基因组、Alu区域和CpG岛的甲基化密度(图4C),图4D是与C图对应的CGN/NCG基序比值。图4C和图4D结果表明DNASE1L3活性对CGN/NCG基序比例的影响以全基因组方式出现,因为DNASE1L3的缺失可能掩盖全基因组CGN/NCG基序比与CpGDNA甲基化之间的相关性。这些结果表明,除了甲基化模式外,DNASE1L3的活性是另一个作用于甲基化感知的裂解因素。             

4 DNASE1L3活性对cfDNA裂解谱的影响

 

4、甲基化的裂解模式显示组织cfDNA分子的起源

血浆DNA是一种由来自不同组织的cfDNA分子组成的混合物。cfDNA分子的组织起源可以通过组织特异性的甲基化模式来确定。因此,研究人员测试了cfDNA的裂解谱是否可能反映了组织特异性的高甲基化和低甲基化的CpG位点,以及其相关的CGN/NCG基序比率是否可以用作组织对血浆DNA库的贡献的替代物。

研究人员以肝移植为模型,探索追踪CpG周围组织特异性切割谱的可行性。研究人员分析了先前报道的肝移植接收者血浆DNA样本,并确定了肝脏特异性的高/低甲基化CpG位点。通过比较肝组织和棕黄色外壳样本之间的双-脂肪测序结果,研究人员鉴定了肝特异性高甲基化和低甲基化CpG位点。与主要来自造血起源的共享DNA相比,供体来源的DNA导致肝脏特异性高甲基化CpG位点在0处的切割比例增加了51%,而在-1nt处对应的比例下降了31.3%(图5A)(供体来源的DNA被定义为携带供体特异性等位基因的cfDNA,这些等位基因在受体基因组中不存在,而共享DNA被定义为携带供体和受体基因组中存在的等位基因的cfDNA分子)。肝脏特异性高甲基化CpGCGN/NCG基序比与基于单核苷酸多态性(SNP)方法推导的供体来源DNA比例呈强正相关性(图5B),而肝脏特异性低甲基化CpG位点的切割谱则表现出与高甲基化CpG位点相反的模式(图5C),对于低甲基化的CpG位点,CGN/NCG基序比与供体来源的DNA比例呈负相关(图5D)。这些结果说明甲基化切割谱可推断血浆DNA中肝脏DNA的比例。

5肝脏特异性切割谱可用于推断肝移植患者血浆DNA中的肝脏DNA贡献

在肝脏特异性甲基化中观察到的依赖于甲基化状态的切割模式可以很好地推广到与孕妇胎盘特异性甲基化相关的血浆DNA分子的研究中。研究人员分别测定了胎儿特异性DNA(红线)和共享DNA(蓝线)中胎盘特异性高甲基化(6A)和低甲基化(6B)CpG的裂解谱。胎盘特异性高甲基化CpGCGN/NCG基序比值与基于SNP的方法推断的胎儿DNA分数呈高度正相关 (6C),而在胎盘特异性低甲基化CpG位点观察到高的负相关(图6D)。这些数据进一步证明了cfDNA的裂解谱有助于推断血浆DNA分子的组织来源。

为了探索对FRAGMA使用浅层测序深度的可行性,研究人员对目标组织特异性DNA片段与来自一组组织特异性差异甲基化CpGCGN/NCG基序比率之间的相关性进行了降采样分析。肝特异性高甲基化和低甲基化CpG在测序深度为0.05×和0.5×时,Pearson相关系数(r)分别为>0.8(图6E)。对于孕妇,测序深度分别为0.1×和0.05×,使胎盘特异性高甲基化和低甲基化CpG的皮尔逊的r>值分别为0.80(图6F)。这些数据表明,利用CGN/NCG基序比值来反映组织特异性甲基化水平是可行的。

6用于组织来源分析的组织特异性裂解谱、胎盘特异性高甲基化的裂解谱

 

5CGN/NCG基序比值中畸变的临床意义

研究人员同时研究了CGN/NCG基序比与肿瘤DNA及肿瘤进展的关系,在肝细胞癌 (HCC) 患者中观察到来自Alu区域的CGN/NCG基序比与肿瘤DNA比例呈负相关(图7A),对比HCC患者和对照组的CGN/NCG基序比,发现HCC组低甲基化CpG位点的CGN/NCG基序比明显降低,且随着肿瘤的进展而下降(图7B)。为了充分利用CGNNCG基序,研究人员采用了支持向量机(SVM)模型,使用HCC特异性低甲基化CpG位点(即ACGCCGGCGTCGCGACGCCGTCGGCGT)。基于含CG基序的SVM模型的AUC0.98,性能明显优于MDSAUC0.86;蓝色线)(图7C)。对eHCCiHCCaHCC检测的敏感性分别为80%100%100%,特异性为96%(图7D)。除了核基因组的甲基化外,在鼻咽癌(NPC)患者之间的病毒cfDNA分子,如eb病毒(EBVDNA中存在差异甲基化信号。因此,研究人员推断血浆EBV DNACGN/NCG基序比值可能是检测鼻咽癌的另一个维度。在42例非鼻咽癌个体和34例鼻咽癌患者的样本中,与信息CpG位点相关的血浆EBV DNA分子的CGN/NCG基序比值显示鼻咽癌和非鼻咽癌组之间存在显著差异(图7E)。接着他们又采用调整CGN/NCG基序比例选取截止点为0.532,结合先前发表的指标(EBV DNA比例和EBV DNA片段大小比),阳性预测值(PPV)达到26.8%,高于qPCR检测(PPV11.0%)和基于EBV DNA比例和EBV DNA片段大小比率的方法(PPV19.6%)。因此,这些数据表明,与病毒cfDNA相关的裂解谱可能是开发针对病毒驱动的癌症的新诊断工具的另一个重要分子特征。

    

7将切割测量窗口内的差异切割所产生的末端图案用于癌症检测

 

6、利用深度学习模型预测甲基化位点

研究团队开发了一种深度学习算法(FRAGMA),通过分析CpG位点周围的cfDNA裂解模式来预测CpG甲基化指数。根据序列上下文将每个位置的cfDNA切割比例构建为二维(2-D)矩阵(图8)。例如,对于位置- 1,对应于鸟嘌呤 (G),在- 1列和G行之间的相应单元格中填充裂解比例(1.40)。Watson链中与ACT对应的其余行用0填充。来自Crick链的裂解图谱和序列上下文也进行了类似的处理(图8)。

8.使用基于裂解谱的CNN模型在单个CpG分辨率下的甲基化状态预测示意图

 

7、利用裂解概况训练的深度学习模型预测单CpG分辨率下的甲基化状态

为了获得足够的测序深度来分析裂解比例,研究团队收集了来自8名健康对照组和13HBV携带者的亚硫酸氢盐测序数据。随后,将基于训练数据集的模型参数用于分析测试数据集,以输出一个概率得分(在该研究中称为甲基化得分),用来表明CpG位点被高甲基化的可能性。结果显示,用来区分CpG位点是高甲基化还是低甲基化的该深度学习模型AUC高达0.93(图9A)。与甲基化评分≥0.5CpG位点相比,甲基化评分< 0.5CpG位点的甲基化指数显著降低(图9B)。图9A蓝色线下面的AUC区域结果是只使用CpG位点周围的序列,不使用cfDNA裂解模式,可以看出该模型性能显著下降,AUC0.72,进一步突出裂解模式对甲基化分析的准确性有显著贡献。以上结果证明了利用cfDNA片段模式推断单个甲基化CpG状态的可行性。

9利用裂解测量窗口对甲基化分析的CNN模型进行评估

  • 总结

该研究突破了亚硫酸氢盐测序的局限性,证明了利用cfDNA片段模式推断cfDNA甲基化模式的可能性,并通过使用胞嘧啶磷酸鸟嘌呤(CpG)位点周围的cfDNA裂解概况(cleavage profile),在深度学习算法的辅助下确定了从特定区域到单个CpG的甲基化状态,证实了cfDNA的遗传和表观遗传信息可以从单一的非破坏性检测中获得。因此,基于碎片组学的甲基化分析为无创产前、癌症和器官移植评估提供了更多可能性。通过将遗传和表观遗传分析整合到单一分析中,cfDNA 切割模式和甲基化之间联系为最大化血浆 DNA 测序的价值开辟了许多可能性。

 

 

2023年5月11日 10:03
浏览量:0
收藏