Nat Genet.丨使用 CODEC 对Single duplex DNA 测序以高灵敏度检测突变
今天介绍的文献是今年4月发表在Nature Genetic上Single duplex DNA sequencing with CODEC detects mutations with high sensitivity。
作者介绍:
通讯作者Viktor Adalsteinsson博士是麻省理工学院和哈佛大学布罗德研究所格斯特纳癌症诊断中心的主任。此外,他还领导一个多机构合作的血液活检团队,致力于直接从血液样本中分析癌症基因组。该团队的研究目标是开发有影响力的新诊断方法,例如使用血液活检来检测和监测癌症的新方法。
结果及相关背景介绍:
CODEC的全称是用于纠错的原始双链串联方法(Concatenating Original Duplex for Error Correction),相较于标准测序的接头连接,该方法的接头可将待测序的DNA双链串联形成一个测序单位。
1.四链体接头和工作流程
a)为区分真实突变与受损碱基或PCR错误,CODEC 将每个原始双链的沃森与克里克链物理连接起来,其中可能只有一个链发生改变。每簇读取具有两条链序列的文库分子,可检测到整个双链分子,因此是单分子双链测序。
b) CODEC 使用的四链适配器,预先包装Illumina NGS 所需的所有组件,然后是链置换延伸。与标准 NGS 不同,CODEC 是向外读取,依次检测UMI、index和插入片段。每个读对可互相配对,从而形成原始双链分子。
c) CODEC 与靶向测序和 WGS 兼容;该方法可与现有平台对接。
2.概念验证
a) CODEC、双链测序和其他共识方法如pair-end reads序列共识(R1+R2)和SSC的残留SNV频率。作者对两个个体(肿瘤患者和健康对照)的cfDNA进行了泛癌基因panel靶基因富集。no consensus、R1+R2和SSC由于不能排除碱基损坏等假阳性突变,SNV频率远远高于CODEC和双链测序;然而双链测序对每条链至少有两次读取。
b) CODEC在不同分子家族体量下检测出的残留SNV频率,分子家族体量指具有相同UMI和启停位置的原始读对的数量。反映CODEC在分子家族大小为1时,就可较为准确地识别出SNV。
c) 针对每个靶点的原始read-pair,恢复癌症患者和健康供者cfDNA中每个靶点的原始双链。其中,CODEC所需独对远远低于双链检测。
d) 对 “genome in a Bottle Consortium”参考基因组NA12878的WGS,不同方法检测出的残留突变频率和测序成本。CODEC在几项对比方法中显示出最高的“性价比”。
e) 不同的末端修复/加A尾方法对人类精子WGS的残留SNV频率检测的影响。其中ddBTP显示最优的准确率。
3.种系突变和体细胞突变检测
a) 标准二代测序只能检测到在多个分子中检测到高丰度突变,但不能检测到被背景噪声掩盖的低丰度突变。CODEC具有单分子双链的分辨率,可同时检测高、低丰度突变。
b) CODEC和标准WGS检测NA12878基因组的FP和FN,下采样到1×到5×覆盖率。结果表现在低覆盖下,CODEC表现出极低的假阳性,但由于在接头连接时产生的副产物,假阴性略高于标准NGS。
c) 6× CODEC和6×标准WGS检测15例乳腺癌患者的白膜层细胞DNA,将得到的残余体细胞SNVs与患者的年龄进行回归分析。其中CODEC方法的回归系数与已发表文献更为接近。
d) CODEC (0.47-0.83×双链深度)在cfDNA上发现克隆性造血(CH)引起的全基因组突变VAF,并通过白膜层双链测序独立验证。结果显示,CODEC可以在浅层测序即能检出低于0.01%的突变。
e) 对d图中的全基因组CH的突变谱。每个条带代表一个TNC,即三核苷酸上下文,包括相邻核苷酸的变异情况。
4.肿瘤突变检测图谱
a) 2× CODEC (0.11-0.14×双链深度)和标准WGS检测的8个乳腺肿瘤样本的突变用60×标准WGS + Mutect2进行验证。CODEC比同深度的标准WGS检测准确度高达83倍。
b) CODEC检测克隆性肿瘤突变的敏感性(3×双链深度;18×覆盖率)及相应的PPV。结果显示,提高CODEC覆盖度可以提高检测敏感度,此外结果反映单分子双链即可足够准确检测出真实突变。
c) 肿瘤样本的2×CODEC初始发现的突变比率和VAF,并对同一样本的靶向双链测序进行交叉验证。结果发现超过四分之一的突变被验证为真正的突变。CODEC鉴定的突变部分VAF 低达0.042%,该结果表明,低覆盖率的CODEC可以检测到罕见突变,不能被即使时深覆盖的标准WGS检测到。
d) MSI结肠肿瘤的12×标准WGS和5× CODEC (2×双工深度)数据的突变谱。CODEC检测到的突变结果与WGS联合Mutect2分析的相似度更高。
e) 通过Mutect2从12×标准WGS中选择的高丰度突变与余弦相似度(橙色框中为参考)。降低覆盖率的方法为下采样。从标准WGS选择的高丰度突变与其下采样数据之间的突变概况时,降低7倍以下的覆盖率开始减少余弦距离(图4e)。CODEC降至0.05×时针对高丰度突变仍能维持较高的相似度(余弦距离>0.9以上),结合上述其他结果,意味着低覆盖率的CODEC能够可靠地鉴定出低丰度和高丰度的突变。
f) 从MSI患者的突变概况中提取了癌症体细胞突变目录(COSMIC)特征。CODEC 不仅在 Mutect2选择的高丰度突变中检测到两个MSI特征,而且还检测到另一个 MSI 特征SBS21。CODEC 检测到但Mutect2舍弃的突变特征与来自 CODEC 的所有突变特征相似,表明它们也可能来自真正的体细胞突变。
g) 在8个乳腺肿瘤样本中,60× WGS + Mutect2与2× CODEC或标准WGS之间的余弦相似性。2 × CODEC 和60×标准WGS联合Mutect的突变谱之间的余弦距离仍然很高(即相似度高),而2 ×标准 WGS 的突变谱则没有。
h) COSMIC特征3意味着患者的同源重组缺陷(HRD)状态,是肿瘤发生的常见驱动因素和预测性生物标志物,由60×CODEC和Mutect2估计的所有特征中签名3的权重之间的相关系数= 0.91,标准 WGS 进行同样的计算,值高于-0.12。此外,根据 CHORD和 Mutect2,CODEC 正确地确定了所有阳性和阴性的HRD状态。方框显示由CHORD确定的HRD状态的真实情况。
i) 为测试CODEC如何改善来自液体活检样品的肿瘤突变检测,对来自四个乳腺癌患者cfDNA的 CODEC (中位原始读对数: 24M)和双链测序(中位原始读对数:52M)文库进行肿瘤特异性探针panel捕获。在四名肿瘤分数不同的患者在检测所追踪的突变所需的读数对中,CODEC显示出高达100倍的减少。
5.MSI检测
a) 在NA12878基因组单核苷酸微卫星的残留indel频率。放大框中的箭头表示微卫星长度不正确读数的占比分数。结果显示CODEC在单核苷酸微卫星上表现出较低的插入和缺失频率。微卫星长度不正确的 CODEC 读书比例为0.45% ,比标准WGS低12倍。
b) 这种较低的频率与在8-18个不同长度的单核苷酸微卫星上观察到的结果一致
c) 对结肠癌患者的 MSI 样本及对应的癌旁样本测序,以模拟肿瘤不同MSI组分检测。当从计算机模拟稀释系列中检测 MSI 时,与MSMuTect分析配对的标准WGS的 MSI 评分在0.1% 符合其基线。CODEC的MSI评分高于基线0.01%,比标准WGS至少敏感10倍,表明CODEC在较低的肿瘤组分中具有MSI检测的潜力。
总结
Bae, J.H., Liu, R., Roberts, E. et al. Single duplex DNA sequencing with CODEC detects mutations with high sensitivity. Nat Genet 55, 871–879 (2023). https://doi.org/10.1038/s41588-023-01376-0