韩 达 课 题 组

韩 达 课 题 组

NAT BIOTECH丨通过合成和选择纯化复杂寡核苷酸文库

 作者:侯佳宁 

大家好,今天分享的文献是2021年7月29日发表在nature biotechnology上的“通过合成和选择纯化多重寡核苷酸文库”,作者是首尔大学电气与计算机工程系Sunghoon Kwon教授。

研究背景:

合成寡核苷酸的生物运用十分广泛,例如合成生物学,制药工程 、DNA 纳米技术、数据存储等等,以及需要数以千计的寡核苷酸片段来进行合成抗体筛选和可扩展的数字数据存储。在合成过程中,亚磷酰胺单体的迭代偶联而容易出现由于掺入失败而导致的合成错误,

正确率随着寡核苷酸长度的增加呈指数下降。删除或插入(indel),尤其是单碱基indel,是最常见的合成错误类型。即使是用于遗传或蛋白质工程的易错寡核苷酸中的单碱基插入缺失也会改变阅读框,导致无效或敲除蛋白质的翻译。为了最大限度地发挥寡文库的效用,需要额外的质量控制。此类努力旨在降低偶联错误率、优化文库中不同寡核苷酸序列的复杂性或数量以及改进纯化方法。

Ÿ 传统方法

由于无错误和含 indel 寡核苷酸之间的迁移率差异,可以通过聚丙烯酰胺凝胶电泳 (PAGE) 或高效液相色谱 (HPLC) 消除包含单个克隆的寡核苷酸制剂中的插入缺失。然而,这些方法不适用于由数千个寡核苷酸组成的复杂文库,因为纯化分辨率随着复杂性的增加而降低。在高度复杂的寡核苷酸文库中,很难识别单碱基插入缺失。此外,上述方法不能一锅纯化不同长度的寡核苷酸,而各种应用,如合成抗体筛选,需要使用复杂的多长度寡核苷酸文库。

Ÿ 纠错酶

依托于蛋白质和酶的错配原理,低聚体被重新杂交提纯,如果无错误和含错误的低聚体被杂交,错配被酶识别并捕获分裂,只保留无错误的低聚体。然而,由于酶法纯化需要杂交步骤,它们大多应用于组装产物,不适合用于高度复杂的oligo文库的纯化; 因此,其应用主要局限于从头基因合成。

如图:对包含多个错误的重新杂交基因合成产品的改组。重新杂交的基因合成产物被片段化,含有错误的片段被固定在直链淀粉支持物上的 MBP–MutS–H6 沉淀。

错误减少的片段(橙色、蓝色和红色)被重新组装成全长基因,然后进行 PCR 扩增以产生错误减少的产物。

img1

Ÿ   高通量焦磷酸测序

首先将目的DNA片段打断成300-800bp的小片段,然后在5’端加上一个磷酸基团,并将3’端变成平端,再在两端加上衔接子组成目的DNA的样品文库。之后将目的DNA片段固定到磁珠上,将磁珠包被在单个油水混合小滴中进行独立的扩增,从而实现所有目的DNA片段进行平行扩增PCR。随后将这些DNA放入PCT反应板中共进行后继测序,这里面包含了化学光反应所需的各种酶和底物。测序开始时,将T、A、G、C按顺序循环单分子进入PTP 板,如果发生配对,则会释放一个焦磷酸盐分子,其在后续与ATP磷酸化酶和虫荧光素反应产生光信号,此光信号被捕获以确定碱基序列。

使用高通量焦磷酸测序的纯化方法,通过识别每个寡聚体的序列,然后选择不同的无错误寡聚体,大大降低了错误率。选择过程是通过珠分离或聚合酶链反应(PCR)与序列已知的条形码。然而,主要的限制是选择过程是费力的或低效的,因为必须逐个选择和检索经过序列验证的寡聚体,或者需要额外的条形码序列进行选择。

整体设计:

在这里,作者介绍了通过合成和选择 (MOPSS) 进行的多重寡核苷酸文库纯化,这是一种区分全长寡核苷酸和具有插入缺失的寡核苷酸的方法。MOPSS 可以一锅应用于高度复杂的不同长度的寡核苷酸文库。该方法从末端测量寡核苷酸的长度并确定末端核苷酸的类型(即 A、G、T 和 C)。寡核苷酸长度是通过通用引物的杂交,随后合成n bp 核苷酸与可逆终止子。然后,添加特定类型的生物素修饰的核苷酸并与无错误的寡核苷酸偶联。如果由于插入和缺失导致错配,寡核苷酸将被丢弃,因为生物素修饰的核苷酸无法偶联。最后,通过生物素-链霉亲和素相互作用选择合成的全长寡核苷酸。以最后掺入的核苷酸是dATP-biotin为例,如果生物素-dATP 结合区域附近有其他胸腺嘧啶碱基,并且与生物素-dATP 结合区域的距离与插入缺失的数量相匹配,则生物素-dATP 可以与这些寡核苷酸偶联。例如,如果距离设计的生物素-dATP 结合区域有 2 bp 的胸腺嘧啶碱基,则不会丢弃具有两个碱基缺失的寡核苷酸,因为生物素-dATP 在其他胸腺嘧啶碱基处偶联。因此,作者选择使用生物素-dATP 结合区来避免胸腺嘧啶碱基接近 3 bp,考虑到单碱基 indel 是显性错误,并且随着累积 indel 数量的增加,具有 indel 的寡核苷酸比例会降低。此外,通过确定核苷酸的类型远离末端n bp的核苷酸类型,该方法允许在一个锅中同时纯化长度差异至少为 3 bp 的寡核苷酸文库,无论它们的序列和复杂性如何。MOPSS 基于每个循环中单个核苷酸的延伸,根据合成测序 (SBS) 原理,这是下一代测序 (NGS) 中最广泛采用的原理。

为了证明该方法可以应用于有和没有 NGS 设备的站点,作者进行了基于 Illumina NGS 的和动手实验来测量长度。当使用 NGS 设备时,费力的长度测量步骤很容易被取代。通过这种方法,NGS 设备用于物理获取长度测量的寡核苷酸分子,而不是破译寡核苷酸序列。

img2

 

结果与讨论:

1,模型验证: 

img3

由于单碱基插入缺失是最常见的合成错误类型,作者设计了一个概念验证实验,其中混合了两种不同的寡核苷酸并纯化了更长的寡核苷酸。具体而言,合成了两种不同长度的寡核苷酸(58 和 61 bp;)并以等摩尔浓度混合,并在带有腔室的玻璃上进行纯化。使用密码子表将具有单个字母差异的两个不同单词编码为四元寡核苷酸序列,并合成了具有通用引物区域的序列。相对较短的寡核苷酸被视为截短的寡核苷酸,而较长的寡核苷酸被纯化。带有终止子的核苷酸通过重复偶联与分子偶联 45 次,然后生物素-dATP 与更长的寡核苷酸偶联(图b)。纯化后的寡核苷酸进行NGS分析,无错误寡核苷酸占分子总数的95.2%,而纯化前的比例为53%(图c)。如果偶联循环数减少三个,这对应于寡核苷酸长度差异,则短寡核苷酸被纯化。

2, 基于 NGS 仪器的实验方法

img4

通过重复耦合进行长度测量是 MOPSS 的主要思想。然而,通过手工实验将核苷酸与可逆终止子偶联起来既费力又费时。因此,作者使用 Illumina 测序仪执行此步骤,通过将 NGS 运行适当数量的循环,可以延伸预期数量的核苷酸。作者选择了广泛采用的 Illumina 测序仪进行纯化,因为它们由 SBS 操作,这与所提出的方法的原理相同:通过将预期数量的核苷酸与每个寡核苷酸偶联来测量文库的长度。此外,可以通过在特定周期中止运行来调整耦合。除了仪器操作SBS的步骤外,所有步骤都以相同的方式执行。

作者将 MOPSS 应用于由具有更高复杂性(4,503 个片段,160 bp)的较长寡核苷酸组成的寡核苷酸文库。全长纯度,即全长寡核苷酸的比例,从 56% 增加到 82.1%(图c)。在这个实验中,胸腺嘧啶碱基位于距离生物素-dATP 结合区 4 个碱基的位置,并且还选择了具有 4-bp 缺失的寡核苷酸。通过设计中存在的重复序列的总长度、GC 含量 (%) 和最小自由能 (MFE, kcal mol -1 )分析了纯化前后全长寡核苷酸的分数。无论重复长度如何,带有 STR 或微卫星的寡核苷酸的全长纯度都会增加(图d)。然而,该比例仅在重复长度为 36-37 bp 的寡核苷酸中减少;作者认为这种现象是由于设计频率低(0.3%)和数据中的原始读数低导致的。此外,当考虑GC含量在35%至70%之间的寡核苷酸以优化用于纯化的GC含量时,全长纯度从61%增加到80.5%(图e)。对于 MFE 高于 -45 kcal mol -1且不易受到二级结构影响的寡核苷酸,全长寡核苷酸的比例从 58.8% 增加到 77.5%(图f)。众所周知,高 GC 含量或低 MFE 的寡核苷酸会对合成、测序和扩增产生负面影响,并且在应用中存在问题. 因为作者的纯化技术是基于SBS的,作者认为高GC含量或低MFE的寡核苷酸效率低是源于寡核苷酸的内在问题。此外,低 MFE 或高 GC 寡核苷酸的原始比例在其他应用中使用的寡核苷酸库中很低或不存在,因此,所提出的方法可以广泛应用于各种应用的寡核苷酸库。即使有意包含在生物实验中存在问题的具有 STR 或微卫星和高 GC 含量的寡核苷酸,整个文库的全长纯度也从 54.6% 增加到 75.1%。

3,纯化方法应用于数字数据编码寡核苷酸文库

图 4

在基于 DNA 的数据存储中,对长而复杂的寡核苷酸库有相当大的需求。在将数字数据编码为四元核苷酸序列的过程中,由于寡核苷酸的适度可合成长度有限,因此数据被分段并合成为不同的寡核苷酸。通常使用长度为 100-200 个核苷酸的寡核苷酸文库,并且需要大约 100 万个不同的序列来存储 20 MB 的数字数据。解码数据时,会丢弃带有 indel 的 oligos,或者额外的纠错算法应用于基于 DNA 的数据存储的实际使用。如果合成具有更高长度匹配寡核苷酸比例的数据编码寡核苷酸文库,则可以提高数据解码的效率。

作者设计了一个 oligo 库来编码一个 854 字节的文本文件。由于在数据编码区域中使用的简并碱基,文库的理论多样性为 10 10。结果表明,纯化后全长纯度从 83% 增加到 97%。比较每个地址净化前后的长度纯度都有所增加。其中,长度纯度最低的地址编号显示出最大的改进。因此,作者验证了 MOPSS 可以应用于包含质量较差的子库的库,没有错误的寡核苷酸分数从 81.3% 增加到 84.3%。无错误寡核苷酸的比例低于全长寡核苷酸,表明在纯化过程中产生了置换错误。这种现象是由于聚合酶错误在重复偶联过程中偶联不准确的核苷酸而诱导的,并且可以通过使用高保真聚合酶进一步优化。在一些基于 DNA 的数据存储应用中,在解码过程中不会考虑或丢弃带有 indel 的寡核苷酸,并且大多数纠错算法都针对替换错误进行了优化. 如果寡核苷酸的长度与设计相匹配,则可以通过进一步的纠错码消除替换错误;因此,全长纯度在基于 DNA 的数据存储中很重要。测序后丢弃带有插入缺失的寡核苷酸,因此,如果 NGS 覆盖率相同,则纯化后序列多样性以及不同序列的数量将增加。作者通过将每个分子的平均 NGS 覆盖率从 100 更改为 500 来分析多样性,并且文库的多样性在纯化后得以保留和增加。额外的纯化实验步骤,如 PCR 和链霉亲和素磁珠纯化,可以增加特定地址的比例分析纯化后按地址每 40 万次读取的调用,发现与纯化前的寡核苷酸相似。

4,纯化方法应用于 CDR H3 组合文库

img6

通过以与设计的寡核苷酸之间的长度差异相对应的间隔放置生物素修饰的核苷酸结合区,在一锅中同时纯化不同长度的寡核苷酸(图a)。编码蛋白质序列的寡核苷酸文库需要由多种长度的寡核苷酸组成的高度复杂、高纯度的文库,因为纯度有助于提高应用效率和长度、多样性。由于缺乏复杂寡核苷酸文库高度平行的纯化方法,应用效率低下或需要额外步骤,例如在应用前进行校对平移. 由于具有插入缺失的寡核苷酸被翻译成完全不同或缩短的蛋白质,因此通过使用 3 bp 的长度间隔纯化寡核苷酸可能会提高翻译效率。

作者设计并纯化了一个具有多种长度的寡核苷酸文库,编码互补决定区 (CDR) H3,这是抗体库中最多样化的区域(图b)。文库中存在三种不同的长度(109、112和115 bp),长度差异分别为3 bp和6 bp(理论多样性>10 9)。如果引入更多生物素修饰的核苷酸结合区域,则可以纯化具有更高长度多样性的文库。一锅纯化CDR H3区编码文库,纯化后框内寡核苷酸的比例从49.6%增加到83.5%(图c))。为了确定具有 3-bp 插入缺失的寡核苷酸的影响,作者分析了与设计匹配的寡核苷酸比例,该比例从 40.7% 增加到 68.1%(图d)。比较了文库不同序列的多样性和数量。为了公平比较,对 250 万个读取进行了采样,并在计算机中丢弃了框架外的寡核苷酸。由于所提出技术的插入缺失减少和高通量,所有文库的多样性增加(图e)。作者认为,凭经验达到的多样性在复杂性方面是前所未有的,可以在一锅中纯化,并将在组合文库应用中提供高度多样化的结果,因为它减少了筛选的时间、劳动力和成本。

总结:

在这里,作者使用 MOPSS 以依赖长度的方式去除插入缺失。通过使用偶联终止子测量寡核苷酸的长度,寡核苷酸文库以单碱基分辨率进行纯化。使用广泛采用的高通量 NGS 仪器可以大规模并行纯化。作者纯化了一个包含 4,503 个片段、长度为 160 bp 的寡核苷酸文库,将长度纯度从 56% 增加到 82.1%。对于 GC 含量在 35% 到 70% 之间的寡核苷酸,人类基因组捕获探针寡核苷酸文库的全长纯度从 61% 增加到 80.5%。具有简并碱基编码数字数据的寡核苷酸文库的长度纯度从 83% 增加到 97%,

此外,作者在单个管中纯化了三种不同长度的 CDR H3 区域编码文库。框内寡核苷酸的比例从 49.6% 增加到 83.5%,达到的复杂度经 NGS 证实,高于 10 6。据作者所知,以前没有研究描述过以高度平行的方式纯化不同长度的高度复杂的寡核苷酸文库。

在本研究中,作者使用了 Illumina MiSeq 和 MiSeq Reagent Kit v2 Nano 或 MiSeq Reagent Kit v2 Micro,读取长度为 2 × 150 bp(双端)。该试剂盒能够纯化长达约 150 bp 的寡核苷酸。然而,~300 bp 的寡核苷酸可以使用该方法进行纯化(表1)。SBS 期间发生的定相和预定相是纯化寡核苷酸中存在杂质的合理原因由于 Illumina 不断改进化学,作者认为在不久的将来可以提高纯化产量、长度和复杂性。此外,所提出的方法在多样性方面具有高度可扩展性,因为它使用高度并行的 NGS 仪器。可以通过优化执行纯化的区域和分子密度来增加多样性。此外,所提出的纯化方法的性能依赖于 DNA 聚合酶的保真度,这是由每个掺入碱基的错误数定义的。用于边合成边测序的聚合酶的保真度为 10 -4到 10 -5并且对于破译 DNA 序列是可以接受的,因为碱基被从单个克隆扩增的簇调用,然而,当测序仪用于纯化时会产生替换错误,并且可以通过使用高保真聚合酶进一步减少。

MOPSS 与 oligo 文库兼容,不需要任何额外的设计或纯化序列。微阵列合成皮摩尔范围内的寡核苷酸;合成的寡核苷酸必须经过扩增才能应用;和引物区域存在。由于所提出的方法使用引物区域中的碱基,因此可以轻松设计纯化并且不需要额外的(虚拟)序列。对于使用 Illumina 测序仪进行纯化,可以自定义测序条码区域,或者可以设计自定义引物。因此,作者认为所提出的方法可以满足各种生物技术应用,对高纯度寡核苷酸文库的强烈需求。

Choi, H., Choi, Y., Choi, J. et al. Purification of multiplex oligonucleotide libraries by synthesis and selection. Nat Biotechnol (2021). https://doi.org/10.1038/s41587-021-00988-3.   

 

   

2021年10月1日 14:39
浏览量:0
收藏