韩 达 课 题 组

韩 达 课 题 组

Nat Commun | DNA数据存储中CRISPR驱动的定量关键词搜索引擎

 

大家好,今天分享的文献来自美国康涅狄格大学生物医学工程系的Changchun Liu教授课题组,标题为“CRISPR-powered quantitative keyword search engine in DNA data storage”,于20243月发表在Nat. Commun.上。该课题组的研究方向主要包括:微流控装置,生物传感器与生物仪器,CRISPR诊断技术,医疗诊断,合成生物学。

Changchun Liu

研究背景

DNA已被证明在物理密度,数据寿命,信息加密能力等方面优于传统存储介质。对DNA存储信息的访问可以利用聚合酶链式反应(PCR)实现,使共享相同引物组的寡核苷酸能够在测序前选择性扩增,随机访问通常基于唯一的文件标识(ID)而不是实际内容,从而阻碍了在事先不知道内容和ID之间的关联的情况下访问感兴趣的文件。

现有的几种在DNA驱动中进行搜索的方法通常基于杂交,需要仔细选择代表不同查询的正交序列以确保特异性。因此,开发一种简单、有效的方法直接在存储介质中进行基于内容的搜索,并产生高度准确且易于理解的结果非常重要。

 

本文工作:

CRISPR是在原核生物中发现的一种获得性免疫机制,它可以识别被干扰基因入侵的细胞中特定的感染性DNA序列,类似于数据库中的关键字搜索。受到这种相似性的启发,作者利用反式切割活性的CRISPR-Cas12a,它可以在识别与CRISPR RNAcrRNA)查询互补的短DNA靶序列后立即激活,并导致单链DNA荧光猝灭剂报告基因(ssDNA-FQ)的大规模无差别降解,产生可见荧光的搜索结果。该方法依赖于酶活性,与基于杂交的方法相比,酶活性对核苷酸错配的耐受性较差,因此可以在关键字识别中实现更高的特异性。

作者将此方法命名为“酶关键词识别搜索”(SEEKERFig. 1),由于荧光强度的增长率与关键词频率成正比,SEEKER实现了定量文本搜索。与SEEKER兼容,作者开发了非冲突分组编码(NCG),可以减小字典的大小,并在不破坏文本原始顺序的情况下实现无损压缩。使用四个查询,在包含8000个不相关术语的背景中正确识别了40个文件中的关键词。此外,可以在3D打印的微流控芯片上使用SEEKER进行并行搜索。SEEKER提供了一种定量方法,可以对DNA中存储的完整内容进行并行搜索,且操作简单、结果快速生成。

Fig.1 Framework of a DNA data storage system with searching capability and the general workflow of SEEKER.

 

Oligo数据结构及编码/解码程序

参考链和数据链的结构如Fig. 2a所示,参考链包括21 nt正向和反向引物靶序列(可更改以代表不同的参考池)、4 nt参考索引、4 nt片段索引、80 nt参考有效负载和12 nt RS纠错碱基。数据链包括 21 nt正向和反向引物靶序列(不同的引物靶序列作为不同文件的ID)、4 nt片段索引、由多个数据单元组成的84-112 nt数据有效负载以及12 nt RS纠错碱基。参考链和数据链的建立遵循NCG编码算法。以“CRISPR”一词为例(Fig. 2b),NCG编码将代表“CR”、“IS”和“PR”的数据单元分别分为#641#650#716组。参考链的构建可以被视为填充二维矩阵,其行号等于数据片段中“1”的位置,列则代表组索引。数据链由包含多个7 nt数据单元组成,其中最后一个碱基是指针,其余碱基对应于组索引。

Fig. 2 NCG coding procedure and performance.

 

利用SEEKERoligo中进行关键词搜索

为了防止来自匹配的DNA链的信号干扰,应保证当oligo池被稀释到低浓度时,荧光信号很难被检测到,而当含有目标的文件被放大时,荧光恢复,这样才能确保反式切割产生的信号是由于存正在搜索的特定文件产生的。作者设计了两个oligo池,分别编码文件AB。将原始oligo10倍稀释,实验结果证实能够在120分钟内正确识别包含关键字的oligo池(Fig. 3a),荧光强度的斜率与被搜索文件中关键词的出现频率成正比(Fig. 3b),表明该方法可以进行定量关键词搜索。随后研究了单个文件oligo池中的检测限。对于未经扩增的稀释oligo池,浓度高于60 pM时荧光强度存在显着差异(Fig. 3c)。当将PCR扩增子应用于SEEKER系统时,模板浓度低至600 aM的荧光强度完全恢复到与使用未扩增的高浓度oligo池时相同的水平(Fig. 3d),为SEEKER应用于更复杂的多文件情况提供了基础。当使用相同的查询来搜索包含该查询的选择性扩增的文件时,荧光响应变得强烈,并且可以通过不同的模板浓度进行区分(Fig. 3e)。当使用扩增文件中不存在该查询时,在相同的模板浓度范围内没有观察到明显的荧光响应(Fig. 3f)。

为了证明SEEKER在大规模应用中的可行性,利用了四个查询来搜索oligo池中编码的所有40个文件。图3g显示了在120分钟内搜索文件#0#7的实时荧光动力学。SEEKER的错误率在20分钟内随着反应时间的延长而下降,之后趋于稳定(Fig. 3h)。经过20分钟的反应,在160次搜索中观察到3个错误识别的文件,错误率为1.875%Fig. 3i)。计算每个编码文件中每个关键字的频率(Fig. 3j),并确认荧光增强的平均斜率与关键字的频率呈线性相关(Fig. 3kR2约为0.88)。

作者进一步调整整个oligo池中包含关键字的寡核苷酸的比例,研究关键字频率高达1000SEEKER的性能。使用每条链中仅包含一个关键字的寡核苷酸(图3l)和每条链中包含一个、两个或五个相同关键字的寡核苷酸混合物(Fig. 3o)来模拟句子中重复使用关键词的实际情况。当关键字频率低于20时,在两种条件下观察到关键字频率和荧光斜率之间的完美线性(Fig. 3mp);当关键词频率达到500时,在两种实验条件下都获得了良好的对数关系(Fig. 3nq)。

Fig. 3 Performance of SEEKER in single-file and multi-file oligo pools.

 

SEEKER芯片

随后,作者通过在3D打印芯片上进行SEEKER,将SEEKER设计为一种方便的数据搜索工具,无需复杂的程序或严格的实验条件。该芯片由树脂制成,可以低成本批量生产,芯片允许同时搜索20个文件(Fig. 4a)。在20分钟内,目标文件和非目标文件之间的荧光强度变化明显,并且可以通过肉眼观测到(Fig. 4b)。通过定量分析检测通道的灰度强度,实现了荧光强度的精确测量。使用两个查询在芯片上进行SEEKER,仅观察到对文件#36产生了错误识别,而所有其他搜索结果都正确(Fig. 4c)。此外,灰度强度与关键字频率之间的线性回归R2约为0.71Fig. 4d),表明芯片上的SEEKER能够进行定量搜索。

Fig. 4 SEEKER on a chip.

 

通过排序读取NCG编码文件

由于引物设计不当或某些有效载荷序列扩增困难导致的PCR扩增偏倚,即使采用高测序覆盖率,也可能导致缺失文件。计算在四个重构的数据链扩增子池中对感兴趣的每个文件的有效读取(Fig. 5a),结果显示,从一个特定的放大文件中读取的实际和理想之间的最大偏差比例为10.31% #16 in Data#1),平均偏差:Data#14.904%Data#21.718%Data#35.576%Data#42.03%。以上数据表明一个特定的文件中产生重大偏差的可能性是非常低的。解码过程中序列比对后,平均有73.57%的有效reads与数据池和参考池中的序列完全匹配,而RS纠错码使这一比例平均提高了5.58% (Fig. 5b)

为了研究较低的测序覆盖度如何影响NCG编码数据的恢复,作者随机对原始reads进行抽样,并计算了dropout率。当dropout率为1%时所需的最小的覆盖度为40 ×Fig. 5c),与原始读取得到的结果一致。Data#1234和参考池完全访问所需的平均覆盖度为96 ×;获得至少一次完整访问所需的平均覆盖度为29 ×Fig. 5d),表明NCG编码的DNA数据可以在常规测序覆盖范围内完全恢复。

Fig. 5 Reading NCG-coded files through sequencing.

总结

作者提出了酶关键词识别搜索引擎SEEKER,利用CRISPR-Cas12a,当与关键字对应的DNA目标出现时,快速生成可见荧光,生成可视化的搜索结果;并且荧光强度的增长速度与关键词频率成正比,实现了定量文本搜索。同时,开发了与SEEKER兼容的、可实现无损压缩的分组编码,且SEEKER可以在3D打印的微流控芯片上使用。此方法拓展了CRISPR-Cas12a应用范围,提供了一种简单、快速、可定量的DNA存储搜索方式。

 

2024年5月22日 16:08
浏览量:0
收藏