Nat Nanotechnol | 原始DNA存储和计算引擎
大家好,今天分享的文献来自北卡罗来纳州立大学化学与生物分子工程系的Orlin D. Velev和Albert J. Keung教授课题组,标题为“A primordial DNA store and compute engine”,于2024年8月发表在Nat. Nanotechnol.上。Orlin D. Velev教授擅长胶体科学、纳米科学和微流体学。Albert J. Keung教授的主要研究领域为:合成生物学,神经与干细胞工程,生物工程。
研究背景:
迄今为止,基于核酸的分子信息系统大致分为两类:
- DNA分子本身既是数据又是信息基底。这些系统无需将DNA固定在基底上,因此具有极高的信息和计算密度,然而,读取和计算数据通常会破坏DNA;
- 系统利用核酸结构的变化来存储信息。这些信息可以通过电、光或基于物理探针的信号读取,这些系统更适合重复使用,但更难扩展和执行其他功能,如通过PCR生成副本。
本文工作:作者利用高表面积材料创建了一个混合系统,充分利用两类系统的优势。将DNA稳定地吸附在树枝状胶体材料上,并将多个不同的RNA启动子整合到DNA设计中,可以利用转录将数据非破坏性地复制到RNA中。
该系统利用分子生物学的丰富性来执行经典计算机常用的其他功能,可以单独或完全擦除多个不同的图像文件,可以将新数据加载到相同的树枝状胶体基质上,可以读取特定文件,并且可以在不破坏原始数据的情况下计算和解决简化的3×3国际象棋和数独问题。此外,该系统可采用连续微流体的形式实现,并与直接RNA纳米孔测序兼容。
结果与讨论
DNA在柔软的树突胶体上的吸附
如Fig. 1a所示,作者开发了一种具有大表面积与体积比率的聚合物粒子,称为软树突状胶体(SDCs),DNA吸附在这种具有高表面积的底物上,RNA能在不破坏DNA数据的情况下进行转录。作者用醋酸纤维素(caSDC)、纤维素(ceSDC)和琼脂糖(agSDC)分别制备了SDCs,并用200 nt的dsDNA进行孵育,DNA以浓度依赖的方式吸附到这三种类型的SDCs上(Fig. 1b,c)。作者进一步利用FITC或ATTO550染料标记的dsDNA证实了SDCs对DNA的吸附(Fig. 1d)。并且,当与DNA混合后,SDCs的ZETA电势变得更负(Fig. 1e)。以上结果证实DNA能够成功吸附在SDCs上。
Fig.1 A primordial DNA store and compute engine is enabled by adsorbing DNA onto soft dendritic colloids.
微流控通道中SDC结合的DNA的转录
作者制备了含有T7启动子的200 nt dsDNA,并将其吸附到与磁珠结合的SDCs上,装入聚四氟乙烯微管中,通过将体外转录(IVT)试剂通入系统中,利用外部的磁力分离(Fig. 2a),即可将DNA中的信息复制到RNA中。
作者将三种不同的SDC材料和另外两种商业化的非共价固定化DNA系统SpBioDNA、SPRI-DNA对比。SpBioDNA和SPRI-DNA最初产生了更多的RNA,但在五轮IVT后其产量显著下降(Fig. 2b)。三种SDC材料开始时的RNA产量较低,但SCDCs在连续十轮IVT的过程中能够保持相当大的RNA产量(Fig. 2c, d)。此外,延长IVT的孵育时间,产量可以进一步提高(Fig. 2e)。作者还发现,要产生可检测的RNA量,至少需要200 ng的DNA量(Fig. 2f),140 nt和更短的DNA的RNA产率显著下降(Fig. 2g)。此外,将吸附在SDCs上的DNA长度提高到1.5 kb并不会显著影响RNA的产量,这能够提供更有效的数据存储和计算,具有更低的编码成本用于索引和错误校正(Fig. 2h)。基于以上实验结果,在后续实验中,caSDCs被用于构建基于IVT反应的微流体系统,并吸附至少200 nt长度的DNA。
Fig. 2 DNA bound to soft dendritic colloids can be repeatedly transcribed in a microfluidic channel.
从SDCS重复访问文件是可靠和稳定的
前面展示了将单个DNA序列的许多拷贝吸附到SDCs上并转录RNA的能力。然而,真实的文件是包含了许多不同DNA链的库。扩展到实际数据的一个关键挑战是,组成文件或数据库的不同链分布不均匀,导致链丢失并影响解码和访问数据的效率和成本。作者设计并订购了2775个不同的243 nt DNA,分别编码三个JPEG文件(Fig. 3a)。首先检查了将DNA吸附到SDC上进行基于IVT的文件访问是否会影响读取分布。作者对与caSDC结合的DNA和未结合的DNA分别进行了IVT,将产生的RNA转化为cDNA并进行Illumina测序,发现基于IVT的样本的读取分布相似(Fig. 3b)。
接下来,作者测试了SDCs结合的文件1进行重复的IVT是否会改变测序链的分布。每轮IVT后cDNA的数量逐渐减少(Fig. 3c),这可能是由于清洗步骤造成的SDC表面的一些物质损失,但链分布保持高度一致(Fig. 3d)。每轮IVT都有一个非常低百分比的唯一链序列缺失,文件1被精确解码(Fig. 3e)。此外,测序效率仍然一致,表明RNA转录的质量在重复的IVT后得到了维持(Fig. 3f)。
为了考察DNA数据存储的稳定性,作者分别研究了多轮的SDC-DNA冻干、DNA冻干、不冻干溶液,分别如何影响cDNA的产量。在5轮冻干和文件3 SDC-DNA的IVT实验中,链保留率和cDNA数量的下降甚微(Fig. 3g),而溶液中的DNA和冻干DNA在链保留和cDNA收率方面的损失更大。对冻干的SDC-DNA复合物生成的cDNA进行Illumina测序,发现在5轮冻干和IVT过程中保持了相似的链分布和链保留(Fig. 3h, i)。
作者模拟了温度升高导致的加速老化,以冻干和溶液的形式制备了SDC-DNA,并在65℃下分别培养0、8、16、24、48小时,发现冻干的SDC-DNA的衰变比溶液的SDC慢(Fig. 3j)。相当于在4°C储存时, 冻干的SDC-DNA半衰期约为6000年,溶化的SDC-DNA为4000年,分别能在18℃储存200万年和80万年。在48小时的实验中,链分布和链保留保持不变(Fig. 3k, l)。以上结果表明,该系统支持长时间重复、稳定的文件访问。
Fig. 3 Complex DNA files can be stored, lyophilized and protected from accelerated ageing and repeatedly accessed on soft dendritic colloids.
擦除和加载SDC上的数据
传统计算机的核心功能是存储和处理不同的数据集,包括删除特定文件、添加新数据和擦除整个硬盘。SDC-DNA系统也能实现此类功能(图4a)。将文件1固定在SDC上,并添加DNase I,随后分别吸附文件1、2或3。与预期一致,DNase I使得文件1不能被解码(图4b),大部分总DNA链被去除,80%以上DNA链不再被检测到(图4c、d)。Illumina测序表明,新文件成功加载到SDC上,其链分布与原始未结合文件相似,尽管与原始SDC相比效率降低了约60%(图4e、f)。
为了在三个文件同时存在时实现对特定文件的选择性删除,不同文件的所有链都设计有共同的限制性内切酶识别序列。将三个文件一起固定在SDC上(图4g)。内切酶能够特异性地切割对应的文件,只有切割的文件不再被解码(图4h)。删除过程都会删除大部分DNA链,仅< 40%的序列被保留(图4i-k)。此外,该过程不会影响解码剩余文件和重新加载文件的链分布和错误率(图4k)。作者还发现碱和高盐条件下链保留的减少幅度比通过酶消化更大(图4l、m)。
Fig. 4 Data files can be specifically erased from and reloaded onto soft dendritic colloids.
RNA纳米孔测序实现连续操作
为了减少延迟,作者通过直接测序RNA来避免将RNA转换为cDNA的过程,使用牛津纳米孔技术公司(ONT)直接读取SDC-DNA系统生成的RNA(图5a)。首先检查了ONT测序是否会扭曲读取分布从而对数据的恢复产生负面影响。结果证实,文件1、2和3 IVT后获得的RNA读取与通过Illumina测序的原始DNA文库具有相似的分布(图5b),并且无论是从游离DNA还是从吸附到SDC的DNA访问,所有文件均被成功解码(图5c-f)。
Fig. 5 RNA nanopore sequencing promotes continuous data processing and reduces skewing of strand distributions.
可寻址存储计算的实现
最后,作者演示了非破坏性计算来解决3×3国际象棋和数独问题,订购了1000个不同的250 nt DNA,其中包含三个不同谜题的所有可能的正确和错误配置(图6a))。每个DNA由九个不同的20 nt位置组成,每个位置代表3×3谜题中一个方格的状态。因此,每个寡核代表一种潜在的棋盘配置。计算方法是取这些代表所有可能棋盘配置的寡核苷酸池,并消除那些违反谜题规则的寡核苷酸序列,只留下代表正确谜题解决方案的寡核苷酸。与每个谜题相关的所有DNA寡核苷酸都含有一个与其他谜题不同的共同RNA聚合酶启动子序列,谜题1:T7启动子;谜题2:Sp6启动子;谜题3:T3启动子。通过添加相应的RNA聚合酶(T7、Sp6或T3),从SDC-DNA转录与各个谜题相关的链(图6b)。作者设计了一种算法,包括添加与RNA互补的DNA组合以及RNase H,以破坏所有违反谜题规则的RNA链,只留下代表正确解决方案的RNA。经过计算,绝大多数幸存的链都是预期的解决方案(图6c、d)。
Fig. 6 Soft dendritic colloids support addressable in-storage computation.
总结
SDC-DNA系统能够实现信息系统的核心原始功能,包括以非破坏性的方式从基底上稳定地存储、擦除、重新加载、读取和计算特定数据的能力,SDC还可以在长时间储存以及反复冻干时为DNA提供保护。局限性:由于限制性酶和RNA聚合酶数量有限,无法用于大规模处理数据。