韩 达 课 题 组

韩 达 课 题 组

NAT COMMUN | 基于机器学习重构的可重写二维DNA数据存储

大家好,今天给大家分享一篇发表在Nature Communications杂志上的研究论文,题为《Rewritable two-dimensional DNA-based data storage with machine learning reconstruction》,伊利诺伊大学香槟分校生物物理和定量生物学中心的Charles M. Schroeder教授及电子与计算机工程学院的Olgica Milenkovic教授为共同通讯。

自古以来,人们使用石刻、绢本、纸张等方式进行信息记录。近代以来,基于磁和光的数据记录方式有了长足进步。随着新技术的发展,人类的信息生产日益增加,对数据存储容量和成本有了更高的要求。

大分子数据存储平台具有非易失性、读出兼容、极其耐用的特点,并且提供了其他现代存储系统无法比拟的空前的数据密度。因此,DNA的数据存储系统是目前最有前景的用于数据存储的可行替代品。传统的基于DNA的数据记录架构将用户信息存储在缺乏固有顺序的大池中合成DNA寡核苷酸的序列内容中,用户信息通过下一代测序或纳米孔测序检索。尽管近几年来取得了一些进展,但一些问题,包括合成DNA的高成本,缺乏直接的重写机制,较大的写-读延迟,以及固相合成引起的寡聚错误缺失等阻碍了分子信息存储技术的实际应用。

一个常见的例子是图像存储。现行的图像存储使用RGB格式,即将原始图像分成红(R)、绿(G)、蓝(B)三色通道并将他们分别依据统一的标准范式进行二维到一维图像数据转换,然后分别对单个通道进行无损压缩。

 

但是,在使用DNA作为储存媒介的过程中,即使是一个单一的不匹配也会在解压过程中导致灾难性的错误传播,并导致无法识别的复制。此外,合成和测序的错误率可能会在不同的平台之间发生数量级的变化,而PCR反应和拓扑数据重写可能会导致测序错误的额外逐步增加。因此,为了确保准确的重构,需要考虑最坏的情况,并在添加冗余之前进行大量的写-读-重写实验来估计错误率。

此外,由于解码参数不匹配问题,估计的错误率必须足够准确,以便进行有效的错误校正。解码器不匹配问题是一个在以前的工作中大部分被忽略的问题,它断言强大的错误校正方案,如低密度奇偶校验(LDPC)码需要对信道错误概率进行良好的估计才能正常工作。我们知道,PCR、测序和重写过程具有高度的随机性,而基于DNA的数据存储平台传统上只在分子的核苷酸序列中编码信息,因此,这对于传统DNA数据存储系统来说显然是一个难题。

基于以上挑战,作者开发了一种基于混合DNA的数据存储系统,称为2DDNA。2DDNA使用两个不同的信息维度,结合了合成和刻痕(nick)特征以解决重写问题,避免错误纠正冗余,以对抗随机和丢失的错误。

由于序列内容携带大量信息但重写困难;而存储在刻痕中的信息通常体积较小,非常适合高效、永久和保护隐私的擦除和重写,因此,作者将刻痕存储的元数据(如所有权信息、日期、临床状态描述)叠加到序列编码的图像上。重要的是,刻痕位置是使用无刻痕链作为参考确定的,因此两个维度的信息可以同时读取。

为了进行概念验证,作者在8张Marlon Brando电影剧照上对存储平台进行了实验测试。原始文件的总大小为8,654,400 bits,经过两步编码程序后减少到2,317,896 nts。作者合成了11,826个DNA寡核苷酸用于表达和关联上述信息,将他们按照对应的图片分在8个不同的引物池中。使用Illumina MiSeq对这些引物池进行测序。其中,作者通过将读取与无错误地址对齐来构造一个一致序列用于减少单个序列的读取可能存在的错误。实验数据表明,在上述所有DNA寡核苷酸中有11,726个完整序列和22个包含错误但不显著损害图像质量的序列被有效恢复,其余78个被高度破坏或无法测得。

恢复图像遭受可见失真,如存在大块的变色。作者认为,这些伪影可以通过应用精心设计的机器学习(ML)和计算机视觉(CV)图像处理技术的组合来去除,因此,作者针对其方法压缩的图像量身定制了相关的处理程序:作者实现了一个三步后处理程序,第一步检测有变色的位置并将其屏蔽。第二步是使用现有的深度学习技术用接近原始的值替换被屏蔽的像素。第三步是平滑图像以减少量化和混合不匹配的内嵌像素造成的阻塞效应。

图像后处理过程依赖于将R、G和B颜色通道存储在不同的DNA寡核苷酸中,并将这些通道作为重复码的“代理”。这确保了同一像素在多个通道中不太可能有相关错误,并且可以通过多数规则检测到变色。因此这种方案也可以用于任何其他类型的记录器,将图像分成R,G,B子图像并分别存储它们。

作为拓扑维度存储概念的证明,作者将信息叠加到相同的Marlon Brando图像上。在写作实验中,作者记录了单词“ILLINOIS”,包含56位ASCII码,跨越8个不同强度级别的DNA池和7个切内切酶,其中每个切内切酶代表7位ASCII码中的一个位。这些酶的识别位点至少存在于八个池中的每个池的一个寡核苷酸中,这些位点被用作记录位置。在ASCII码中,' 1 '翻译为包含,而' 0 '翻译为排除相应的酶。在切割后,下图所示程序对池进行排序。通过这种方式,缺口寡核苷酸被变性,产生了由缺口位置决定的不同长度的ssDNA片段。随后,这些片段被转化到dsDNA文库中,并通过Illumina MiSeq进行测序。通过对酶识别的序列的前缀和后缀对应的两个片段的搜索,来检测是否产生了一个标记。为了重写数据,作者用T4 DNA连接酶处理缺口DNA,而这种擦除方法完全删除了记录的元数据。此外,作者使用相同的无错误重构拓扑刻痕程序实现了重写了单词“GRAINGER”。

为了读取存储在两个维度中的内容,需要分别检索两个单独的子池。序列内容的重建方法通过连接将两个子池中的一个中的缺口密封起来,然后进行测序。或者避免序列内容读出的连接,可以选择只记录oligo子池上的拓扑信息。测序后,读取与从第一个封闭缺口的子池中获得的现在已知的全长读取对齐。比对结果用于算法过程中,以确定哪些酶被用于切割,从而用于所有权元数据的重建。

综上所述,作者提出的方法是基于一个简单的图像压缩方案,分别在三个不同的颜色通道上运行,并结合新开发和现有的机器学习(ML)和计算机视觉(CV)技术,用于图像重建和增强,以创建原始数据的高质量副本。对于一些具有高度细粒度细节的图像,我们还提出了基于LDPC编码的不等误差保护方法,该方法仅对敏感面部特征引入冗余。2DDNA范式消除了最坏情况编码冗余的需要,并避免了解码参数不匹配的问题。它为用户提供了检索由通道错误率决定的图像质量的可能性,这可以被视为多分辨率编码的一种形式。它还提供了很高的信息密度,同时可以通过连接和酶切来改写记录在主干中的数据,这使得它可以应用于合成和原生DNA底物的序列内容。

 

Ref:

Pan, C., Tabatabaei, S.K., Tabatabaei Yazdi, S.M.H. et al. Rewritable two-dimensional DNA-based data storage with machine learning reconstruction. Nat Commun 13, 2984 (2022).

2022年10月9日 15:37
浏览量:0
收藏