Nat Commun丨利用DeepSEED高效进行启动子序列设计
大家好,今天分享的文献是2023年10月发表在Nature Communications上的“Deep flanking sequence engineering for efficient promoter design using DeepSEED”。
作者介绍:
本文通讯作者是清华大学信息处理研究所的汪小我教授,汪小我教授的主要研究方向包括生物信息学、模式识别与机器学习、人工生物系统的设计与控制。
研究背景:
DNA启动子是调控基因表达的核心元件,强启动子和诱导型启动子对实现高转基因表达和治疗是必不可少的。基于已深入了解的转录因子结合位点(TFBS)的序列和功能,许多研究人员试图通过改变TFBS基序的不同排列组合来设计全新的启动子。然而,这一方法的效率却相对较低。最近基于深度学习的方法能够在大量数据的基础上高效探索DNA序列信息并用于启动子设计,因此作者提出了一种结合专家知识和深度学习(AI)知识的方法来进行高效启动子设计,并在湿实验的基础上验证了这种方法的有效性。
图1. DeepSEED总体框架图
模型设计:
DeepSEED是一个结合专家知识和AI的高效启动子设计辅助工具,它由两部分组成:一个基于已有的序列元素生成序列的条件生成对抗网络(cGAN)和一个用来预测生成序列活性的预测网络。为了把两个网络整合起来并且不断优化生成序列的活性,作者采用遗传算法来不断优化序列性能。
利用DeepSEED设计启动子分为三个步骤:(1)通过数据集中的天然启动子序列和专家提出的“种子”训练条件生成对抗模型;(2)通过天然启动子序列及其活性来训练活性预测模型;(3)在这两个模型训练完毕后,将条件生成对抗模型的生成器和活性预测模型连接在一起,生成器的输出作为活性预测模型的输入,并使用遗传算法基于“种子”序列来设计合成启动子。这些合成序列遵循功能启动子分布(通过条件生成对抗模型学习)并将展现高活性(通过活性预测模型学习)。
图2. DeepSEED网络结构图
结果与讨论:
(1)大肠杆菌内组成型启动子的设计
作者使用DeepSEED来设计大肠杆菌(E. coli)中的组成启动子。作者将-10和-35元件的序列和位置固定为“种子”序列,并通过在训练集中的启动子序列上对DeepSEED进行训练,以优化侧翼序列。
作者采用三种具有不同-10和-35元件的组成型启动子作为待优化的初始序列(BBa_J23119、BBa_J23118 和 BBa_J23114),分别具有高中低表达水平。
图3.组成型启动子设计中选取的三种待优化启动子序列
此外还提出两个对照组:Control-1组使用随机序列将初始启动子序列延伸至165 bp,与训练数据集中的启动子长度相同,以防止效应长度对启动子活性的影响;对照组 2 组保留“种子”序列,同时随机化所有其他区域(图4 左)。
作者对两个对照组和DeepSEED生成的序列进行了活性测量,发现相较于原始序列,DeepSEED生成序列的活性都好于对照组的生成序列,有力证明了DeepSEED算法的优越性(图4 右)。
图4.组成型启动子和对照组模板设计(左)以及生成序列的活性箱线图(右)
(2)大肠杆菌内IPTG诱导启动子设计
在细菌中,启动子不仅包含-10 和-35 元件,还包含可与转录因子结合以激活或抑制基因表达的调控序列。大肠杆菌内lac启动子作为诱导型启动子广泛应用于合成生物学中。作者使用 DeepSEED 基于 LacI-DNA 相互作用模式作为专业知识来设计新的 IPTG 诱导启动子。
lacO 位点的数量和位置对于启动子性能至关重要。作者在合适的位置处采用了两个、三个或四个 lacO 位点来进行启动子设计。作者从训练样本中随机取25条组成型启动子作为主干序列,并确定每条序列的-10、-35结合位点和lacO 位点的间隔长度。作为对照组,作者在主干序列的对应位置直接替换为lacO 位点(图5 左)。
作者对生成的每条序列进行了活性测试,发现直接替换的序列活性相较于原始序列有所降低,可能是由于直接替换破坏了启动子结构,这是诱导型启动子设计中的常见问题。相比之下,DeepSEED 设计的启动子恢复了高表达水平,甚至可以超越原始启动子(图5 右)。
图5.大肠杆菌内诱导型启动子的设计实验模(左)和生成序列的活性箱线图(右)
(3)哺乳动物内Dox诱导启动子设计
作者进一步将 DeepSEED 模型扩展到哺乳动物细胞数据,以测试其在设计真核启动子方面的潜力。Tet 反应元件(TRE) 启动子是哺乳动物细胞中使用最广泛的诱导型启动子之一。作者保留了3个 tetO 位点作为“种子”序列,然后使用 DeepSEED 生成侧翼序列。
DeepSEED生成的序列中经过筛选可以得到Fold-change(实验组相对对照组的基因表达量变化)和活性都比原始模板序列高的3-tetO启动子序列(图6 左),作者整合了这些性能良好的 3-tetO 启动子的侧翼序列来设计 7-tetO 启动子,验证了 8 个双组合启动子和 10 个三组合启动子。结果显示,与原始7-tetO-TRE启动子相比,77.8%的DeepSEED设计启动子表现出诱导活性改善,83.3% 的 DeepSEED 设计启动子表现出更高的Fold-change。总共 72.2% 的DeepSEED设计启动子在诱导活性和倍数变化方面均表现出改善(图6 右)。
图6.哺乳动物细胞内生成3-tetO序列活性和基因表达改变图(左)和哺乳动物细胞内生成7-tetO序列活性和基因表达改变图(右)
总结:
作者设计了一种基于专家知识和深度学习对启动子进行优化设计的方法,这种方法能够捕获启动子侧翼序列的隐含信息,可以生成Fold-change和启动子活性都比原始启动子高的序列,此外作者利用深度学习的方法也证明启动子的设计中侧翼序列同样对启动子的活性起到调节作用。
文献信息:
Zhang P, Wang H, Xu H, et al. Deep flanking sequence engineering for efficient promoter design using DeepSEED[J]. Nature Communications, 2023, 14(1): 6309.https://doi.org/10.1038/s41467-023-36736-1