韩 达 课 题 组

韩 达 课 题 组

Nature Cell Biology | PROFIT-seq:一种全转录组可编程智能测序技术

 

大家好,本次跟大家分享的文献是202410月中国科学院动物所赵方庆研究院团队在期刊《Nature Cell Biology》发表题为“Real-time and programmable transcriptome sequencing with PROFIT-seq”的研究论文。该研究提出了一种名为PROFIT-seq的全转录组可编程智能测序新技术,首次将全转录组捕获与计算机编程实时操控算法相结合。该技术能够在测序过程中同步进行数据分析与目标转录本的选择性富集,实现单分子级别的精确检测和全转录组的无偏定量。这一创新方法在生命科学研究、病原体检测及临床诊断等领域具有广泛的应用潜力。

一、作者介绍:

本文的通讯作者是中国科学院动物研究所研究员赵方庆,他专注于建立高效的算法模型和实验技术,研究人体微生物与非编码RNA的结构组成及其变化规律,以揭示它们与人类健康和疾病的关系。其研究领域包括肠道菌群与健康、环形非编码RNA等。赵方庆在《Cell》《Gut》《Nature Biotechnology》等多种高水平学术期刊上以通讯作者身份发表论文100余篇。

二、背景:

在生物学研究中,特定RNA分子的检测是疾病诊断或病原体研究中的常见需求。然而,由于真核生物转录组中包含大量蛋白编码mRNA、非编码RNA及环形RNA等分子,且其复杂性和多样性极高,精确检测特定RNA分子面临巨大挑战。尽管靶向RNA测序(RNA-seq)能够提高目标转录本的检测灵敏度,但其依赖于高效的探针或引物设计,并需要繁琐的预处理步骤。此外,这类方法在检测非多聚腺苷酸化和环形RNA时存在局限性,通常无法全面保留样本中的全部转录组信息,从而限制了文库的适用性,难以满足大规模整合分析的需求,进一步制约了靶向转录组研究的应用前景。

纳米孔测序以其读取长度较长和识别天然修饰的能力,为解决这一问题提供了新的技术思路。作为一种广泛应用于转录组学研究的技术,纳米孔测序能够对天然全长cDNAmRNA进行测序,从而准确识别不同的转录变体。在此基础上,研究团队开发了可编程的全长同构体转录组测序技术(Programmable full-length isoform transcriptome sequencingPROFIT-seq)。该技术创新性地结合了全转录组捕获技术与计算机编程实时操控算法,能够在测序过程中同步进行分析和富集,从而实现目标转录本的单分子精确检测以及全转录组的无偏定量。

具体方法的构建包括以下五个步骤(图1a):

RNA捕获:PROFIT-seq通过组合逆转录策略,即结合双链寡核苷酸(dT)、双链随机引物和单链随机引物,可同时捕获全长多聚腺苷酸(poly(A)+RNA、非多聚腺苷酸(poly(A)-RNA和环状RNA。这种方法大大扩展了检测范围,尤其是对传统RNA-seq中容易遗漏的非多聚腺苷酸RNA和环状RNA具有显著的捕获优势。

cDNA扩增:利用基于发夹结构的环化技术与滚环扩增技术(rolling circle amplificationRCA)扩增cDNA,显著延长了cDNA的长度,提高了后续测序中“reads”的分辨能力,增强了区分完整和不完整读段的能力。RCA产物长度超过10 kb,远超线性逆转录产物的1 kb,为目标富集提供了有力支持。

纳米孔测序文库构建:构建纳米孔测序文库,并使用PROFIT-seq对测序过程进行实时监控和动态调控。

实时数据分析:在测序过程中,获取的数据根据测序时间、通道号及条形码信息进行基础调用和解复用,实现实时数据处理。

比对与决策:通过将基础调用后的序列与参考基因组进行比对

以确认测序数据的准确性和可靠性。如果测序数据成功匹配参考数据库,则继续测序;否则,停止测序,确保了获得数据的质量。

实时和可编程的转录组测序技术PROFIT-seq

为了验证该方案的可先行,作者模拟了不同的DNAcDNAPROFIT-seq测序运行结果,模拟实验结果显示,所有方法的拒绝读段长度的中位数都大约600 bp,但cDNA的拒绝读段占比达到67.5%,不能达到富集的效果。相反,PROFIT-seq的完成读段长度是被拒绝读段的10倍,极大提高了富集效率(图1b)。并且优化的数据采集间隔为0.4秒,确保了实时分析的高效率(图1c)。接着作者进行了富集效果评估中,采用了不同纳米孔操作模式,PROFIT-seq成功富集目标区域,共识读段(72.10%)与目标染色体对齐比例显著提高,证明了其在孔操作方面的成功应用(图1de)。这项技术为转录组研究提供了一个强大的新工具。

使用组合式逆转录策略同时分析聚腺苷酸化和非聚腺苷酸化转录组

PROFIT-seq技术通过创新的组合式逆转录策略,有效捕获全长的聚腺苷酸化、非聚腺苷酸化及环状RNA,弥补了传统纳米孔cDNA测序中非聚腺苷酸化转录本多样性的缺失。为了评估PROFIT-seq在逆转录本上的检测性能,作者使用组合的引物对来自Hela细胞的总RNA进行了反向转录(图2a,在两次重复中,82.35%的测序分子来源于双链寡核苷酸(dT)引物)。与双链寡核苷酸dT)引物相比,随机六聚体引物产生了相似长度的读数(图2b),但在转录本的5’端表现出更均匀的分布(图2c),并且能够捕获更多的非多聚腺苷酸化转录本(长链非编码RNALong non-coding RNAlncRNA)、杂项RNAMiscellaneous RNAmiscRNA)和小核RNAsmall nuclearRNAsnRNA))(图2d)。为了进一步研究组合式逆转录策略的性能,作者使用公共的poly(A)+富集和poly(A)-去除数据集鉴定了22,649poly(A)+基因和302poly(A)基因(图2e)。其中,组合RT文库成功回收了16,453poly(A)+基因和111poly(A)基因。poly(A)+基因的丰度与双链寡核苷酸dT)和ONT直接RNA-seq数据高度相关,而poly(A)基因则在组合式逆转录协议中得到了有效富集(图2f,g),表明组合式逆转录策略在表征非多聚腺苷酸化转录组方面优于传统的poly(A)+ RNA-seq方法。此外,PROFIT-seq在转录异构体发现灵敏度上也表现出色,相比于经典的双链寡核苷酸dTcDNA-seq能更有效捕获低表达量转录因子的更多转录异构体。经典的双链寡核苷酸dTcDNA-seq只测序了RPL34基因的两个蛋白编码异构体,而组合式逆转录策略则有效捕获了GENCODE v37注释支持的保留内含子,PROFIT-seq在转录异构体发现灵敏度上也表现出色,能有效捕获低表达量转录因子的更多转录异构体(图2h)。类似地,双链寡核苷酸dT)数据仅捕获了RPS2基因的主要蛋白编码异构体,而组合RT有效重建了来自同一位点的三个可变剪接异构体和一个假基因,显示出较强的的异构体发现灵敏度(图2i)。这些结果表明PROFIT-seq可以有效地对多聚腺苷酸化、非多聚腺苷酸化和环状转录本进行测序,与经典cDNA测序方案相比,可以更好地描绘转录组多样性。

富集和重建目标基因组的异构体

接下来,作者评估了PROFIT-seq在两个结直肠息肉样本(JL01JL19)中富集靶基因面板的能力。选择了与结直肠癌相关的717个蛋白编码基因、1,055lncRNA606个环形RNA分子(CircularRNAscircRNA)作为富集目标(图3a)。该方法在12小时内显著增加了靶向分子和共识读取的数量(图3b,c)与对照相比,目标分子增加了1.9倍,共识读取增加了1.68倍,表明成功富集了与癌症相关的转录本(图3d)。在6小时内,PROFIT-seq检测到363个目标基因,而对照仅219个,显示出其快速富集癌症相关基因的优势(图3e,f)。PROFIT-seq在完整运行中生成了更好的回收基因数,共回收了248个基因,并且富集效能较对照组提高了2倍以上(图3g)。在两个样本之间,富集效率显著相关,表明癌症相关基因面板的有效富集(图3h)。PROFIT-seq通过共识读取显著提高了靶基因位点的转录本重建数量,与对照组相比,PROFIT-seq使得78.11%的癌症相关基因和69.70%的癌症相关基因显示出增加的异构体多样性,而非靶基因未出现类似效应(图3i)。以GAS5基因为例,控制组数据中只识别到3个异构体,而在PROFIT-seq中分别重建了7个和5个异构体,表明PROFIT-seq显著增加了转录本的异构体发现灵敏度(图3j)。对BID基因位点的分析显示,PROFIT-seq在该位点的对齐读取数和重建的异构体数目上也显著增加,进一步验证了PROFIT-seq在注释基因的发现灵敏度上的提升(图3k)。这项技术有效地富集了与癌症相关的基因组,提高了转录组多样性的描绘能力。这些结果表明,PROFIT-seq能够在临床样本中有效富集癌症相关基因及其剪接异构体,且无需事先进行实验性富集,从而提高了基因多样性和灵敏度。

使用基于EM的策略进行无偏量化转录本

由于靶向读长在测序运行过程中选择性富集,因此靶向和非靶向RNA的定量可能会有偏差。为了解决富集读数可能引起的定量偏差,作者提出了一个基于期望最大化(EM)算法的方案,结合全长共识读数和被拒绝的部分读数,以有效地重建转录本并进行无偏定量。全长读取用于转录本组装,部分片段重新对齐以校正表达水平(图4a)。在PROFIT-seq数据中,目标转录本的全长共识读数比例高于非目标转录本,表明富集效果显著,但也存在定量偏差(图4b)。这种方法有效纠正了仅使用全长读取时的高估问题,提高了与对照样本的相关性(图4c)。仅使用全长读数时,目标基因的表达值被显著高估,而通过EM定量算法调整后,相关性显著提高(R = 0.717),表明该算法能够有效校正定量偏差(图4d)。与IlluminaRNA-seq数据相比,未经定量调整的原始PROFIT-seq全长数据与Illumina数据的相关性较弱,而使用全长和部分片段调整后的基因定量结果与未进行测序操作的数据相似(图4e)。经EM算法调整后的PROFIT-seq数据与Illumina数据对比显示,其在表达水平上更为准确,证明了其在富集目标转录本的同时保持了表达水平的无偏性(图4f)。这些结果表明,PROFIT-seq能够有效富集目标转录本,并通过EM算法校正定量偏差,保持无偏的转录本表达水平。

快速检测肺炎或COVID-19患者痰液样本中的病原体

为了探索每个样本的致病菌组成,作者以肺炎相关病原(如肺炎链球菌、金黄色葡萄球菌和肺炎克雷伯菌)和SARS-CoV-2的基因组序列作为富集目标进行分析(图5a)。PROFIT-seq文库的原始读数总量低于未处理的对照组,但观察到来自目标病原的原始读数和共识读数数量显著富集(图5b)。与对照组相比,PROFIT-seqSARS-CoV-2基因组的覆盖度上表现出更快速和高效的增加,该技术在6小时内生成的靶向数据量与24小时的数据量相当,显著增加了病原体衍生共识读取总数(图5c)。PROFIT-seq还能够显著提高SARS-CoV-2基因组覆盖所需的时间,将所需时间缩短至原来的五分之一(图5d),在相同时间内,PROFIT-seq生成的SARS-CoV-2病原共识读数比对照组高出3.3倍(图5e),PROFIT-seq在刺突蛋白(S蛋白)上的测序深度较高,为高置信度突变的识别提供了基础,成功识别了所有22Omicron变异株的代表性突变以及Omicron BF.7亚型的关键突变(图5f)。S01S06样本显示出不同的病原组成,其中超过70%的分配读数被鉴定为流感嗜血杆菌(H. influenzae),这进一步解释了SARS-CoV-2变异株检测效率较低的原因(图5g)。在肺炎样本中,PROFIT-seq也表现出更好的致病读数检测能力,揭示了不同肺炎患者中占主导地位的多样病原来源(例如P13中的肺炎克雷伯菌、P15中的金黄色葡萄球菌、P26中的肺炎链球菌及其他样本中的流感嗜血杆菌)(图5h)。这些结果表明,PROFIT-seq在快速检测低丰度病原体及其变异方面表现出色,具有广泛的应用潜力。

息肉向上皮内瘤变转化过程中免疫反应与肠道微生物组失调的相互作用

最后,作者进一步探究了PROFIT-seq在表征疾病中的复杂关联方面的应用,特别是在息肉向上皮内瘤变转化过程中宿主免疫反应与肠道微生物组失调之间的相互作用。通过对18个结直肠息肉样本进行PROFIT-seq分析,包括6个炎症性息肉、5个低级别上皮内瘤变(LIN)和7个高级别上皮内瘤变(HIN)样本,作者成功针对免疫和肿瘤相关基因组的106.69 Mb基因组区域进行了测序(图6a)。在两种测序方式下,80.79%的目标基因在PROFIT-seq中成功富集,其中26.43%的基因富集倍数超过2倍(图6b)。共识读数中映射到“过滤区域”的比例降低,表明PROFIT-seq有效富集了目标基因面板(图6c)。主成分分析(PCA)显示,同一生物组的样本,无论使用哪种测序策略,其基因表达水平相似,表明PROFIT-seq能够保持不同样本之间的真实生物学多样性(图6d)。然后作者针对免疫受体库进行分析,结果显示B细胞受体(BCR)和T细胞受体(TCR)的有效富集在PROFIT-seq数据中显著提升,且显著高于常规IlluminaRNA-seq数据(图6e)。在PROFIT-seq和对照数据中,BCR的克隆类型呈现出逐渐减少的趋势,表明B细胞多样性的减少(图6f)。BCR的超可变互补决定区3CDR3)的克隆度增加,与结肠癌中B细胞多样性变化(减少)一致(图6g)。此外,PROFIT-seq还揭示了与息肉恶性转化相关的免疫球蛋白重链(IGH)亚型的显著变化,特别是IGHA2IGHG2的转换(图6h)。在息肉向肿瘤转化过程中,PROFIT-seq捕获了完整的转录组谱,显示肠道微生物群的组成发生变化(图6i)。在高级别上皮内瘤变样本中,已知与结直肠癌相关的细菌——Fusobacterium的丰度显著增加(图6j)。这些结果展示了PROFIT-seq在捕获转录组全谱、富集目标和未注释转录本方面的强大能力,这种综合分析方法有助于深入理解息肉发展过程中宿主与微生物组之间的相互作用,为结直肠癌的早期诊断和治疗提供新的视角。

PROFIT-seq通过复合逆转录策略和滚环扩增技术,突破传统探针和扩增子方法的局限,能够高效捕获多聚腺苷酸化、非多聚腺苷酸化和环状RNA等多种转录本,实现实时富集和选择性控制。该研究首次提出转录组智能测序概念,结合人工智能纳米孔自适应算法,可实时识别分子来源并编程选择目标分子进行全长测序。在临床应用中,PROFIT-seq显著提高了痰液样本中肺炎相关病原的检测通量(增幅3-5倍),并将关键突变鉴定时间缩短75%,实现快速、精准的病原检测。同时,该技术揭示了结直肠癌微生物与宿主免疫系统的复杂交互规律,尤其是在息肉恶变过程中的免疫组库与肠道微生物关系研究中具有重要意义。总体而言,PROFIT-seq是一种适用于快速、精准、无偏量化分析的转录组测序技术,具有广泛的临床诊断和研究应用前景。

 
招聘公告

本课题组常年全球招募具有具有化学、生物、医学、材料、人工智能、信息科学等相关背景的博士后和科研助理。

有意者请将个人简历发送至dahan@sjtu.edu.cn,并抄送guopei@ibmc.ac.cn,邮件主题为“应聘职位+姓名+研究方向”。

具体招聘信息可点击此处查看详情

 
微信号:HanDa-Lab
课题组网站:https://www.hanlab.net/

撰稿:宿星蕾

校对:张朝

编辑:江言

∨ 点击“阅读原文”直达文献

 

2025年1月25日 13:48
浏览量:0
收藏