Nat Methods丨评估 GPT-4 在单细胞 RNA-seq 分析中的细胞类型注释作用

今天给大家分享的是2024年3月25日，在Nature Methods 上发表的题为Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis 的研究论文。该研究证明了大型语言模型GPT-4可以在单细胞RNA测序（scRNA-seq）分析中使用maker基因信息准确地进行细胞类型注释。

通讯作者是来自哥伦比亚大学梅尔曼公共卫生学院生物统计系的侯文品助理教授，以及来自杜克大学医学院生物信息学的纪志诚助理教授。两位专家在生物统计和生物信息学领域具有深厚的背景，他们的合作为这项研究带来了跨学科的视角。

研究背景:

单细胞RNA测序（scRNA-seq）是一种强大的工具，用于在单个细胞水平上研究基因表达，但它也带来了一系列挑战：高变异性和噪音: 与同时分析来自许多细胞的RNA的批量RNA测序不同，scRNA-seq处理单个细胞，导致数据高度可变。这种可变性可能是由于细胞之间的生物学差异和该过程的技术限制，使得难以区分真实信号和背景噪音。稀疏性: 由于从单个细胞中捕获的RNA数量很少，即使实际存在于低水平，也可能出现许多基因未表达（脱落事件）。这种稀疏性给数据分析和解释带来了挑战。数据归一化: 对scRNA-seq数据进行归一化以解释捕获效率和测序深度等技术变化对于准确比较细胞至关重要。这仍然是一个研究领域，因为一些归一化方法可能会引入伪影或扭曲生物学信号。计算需求: 分析scRNA-seq数据需要专门的计算工具和专业知识。生成的大量数据和分析的复杂性可能需要大量资源。批次效应: 即使是细胞培养、文库制备或测序运行中的微小变化也可能引入会扭曲数据的批次效应。研究人员需要仔细设计实验并采用统计方法来解释这些影响。对细胞类型的了解有限: 解释scRNA-seq数据通常依赖于基于已知标记基因识别细胞类型。然而，对于新的或稀有的细胞类型，这可能是具有挑战性的，并且标记基因本身可以可变表达。

研究内容:

GPT-4的介入：工作的核心在于介绍了GPT-4——一种大型语言模型，在单细胞RNA测序分析中的应用。GPT-4通过学习大量的文本数据，具备了理解语言和生成文本的能力，这使得它能够在没有人类专家干预的情况下，自动识别和注释细胞类型（图1）。

图1| GPT-4 细胞类型注释示例以及与其他方法的比较。 a，人类专家、GPT-4 和其他自动化方法的细胞类型注释比较。 b，GPT-4 以递增的粒度注释人类前列腺细胞的示例。 c，GPT-4 注释单一、混合和新细胞类型的示例。

GPTCelltype软件包：为了使GPT-4的能力得到充分发挥，研究团队开发了R软件包GPTCelltype。该软件包作为一个接口，使得GPT-4能够直接处理来自scRNA-seq的数据，并生成细胞类型注释。

研究首先探讨了可能影响 GPT-4 注释准确性的不同因素（图 2a ）。作者发现，在使用前十个差异基因和使用双侧 Wilcoxon 检验得出差异基因时，GPT-4 的表现最好。GPT-4 在各种提示策略中表现出相似的准确性，包括基本提示策略、思维链提示策略和重复提示策略。在随后的分析中，GPT-4 和 GPT-3.5 都使用了基本提示策略，并将 Wilcoxon 检验得出的前十个差异基因作为适用数据集的输入。在大多数研究和组织中，GPT-4 的注释与 75% 以上细胞类型的人工注释完全或部分吻合（图 2b），这表明它有能力生成专家可比的细胞类型注释。对于来自文献检索的标记基因，这种一致性尤其高，在大多数组织中至少有 70% 的完全匹配率。虽然通过差异分析确定的基因的一致性较低，但仍然很高。不过，2021 年 9 月之前发表的数据集的结果应谨慎解读，因为它们早于 GPT-4 的训练截止日期。与其他细胞类型相比，GPT-4 在粒细胞等免疫细胞方面的表现更好（图 2b）。它能识别结肠癌和肺癌数据集中的恶性细胞，但在 B 淋巴瘤方面却很难识别，这可能是由于缺乏不同的基因集。恶性细胞的鉴定可以从拷贝数变异等其他方法中获益。在不超过 10 个细胞的小细胞群中，性能略有下降（图 2b），这可能是由于可用信息有限。在主要细胞类型（如 T 细胞）中，GPT-4 注释与人工注释完全匹配的频率高于亚型细胞（如 CD4 记忆 T 细胞），但仍有超过 75% 的亚型细胞与人工注释完全或部分匹配（图 2b）。

图2 | a，平均一致性分数。b，各种实验数据的比较 c，两种类型胶原基因表达的对数2转换比率。d，e，平均一致性分数（d）和运行时间（e）的比较。f，成本与细胞类型数量的关系。g，GPT-4在各种实验条件下的性能（点）。h，GPT-4注解的可重复性。i，两个版本的GPT-4之间的一致性。

在某些细胞类型中，GPT-4 和人工注释的一致性较低，但这并不一定意味着 GPT-4 的注释不正确。例如，被归类为基质细胞的细胞类型包括表达 I 型胶原基因的成纤维细胞和成骨细胞，以及表达 II 型胶原基因的软骨细胞。对于人工注释为基质细胞的细胞，GPT-4 会分配颗粒度更高的细胞类型注释（例如，表达 I 型胶原基因的成纤维细胞和成骨细胞，以及表达 II 型胶原基因的软骨细胞）。对于人工注释为基质细胞的细胞，GPT-4 分配的细胞类型注释颗粒度较高（例如成纤维细胞和成骨细胞），导致部分匹配和较低的一致性。对于人工注释为基质细胞但被 GPT-4 鉴定为成纤维细胞或成骨细胞的细胞类型，I 型胶原基因的表达量大大高于 II 型胶原基因（图 2c）。这与人工注释为软骨细胞、成纤维细胞和成骨细胞的细胞中观察到的模式一致（图 2c），表明 GPT-4 为基质细胞提供了更准确的细胞类型注释。根据平均年龄一致得分，GPT-4 的表现大大优于其他方法（方法和图 2d）。使用 GPTCelltype 作为接口，GPT-4 的速度也明显更快（图 2e），部分原因是它利用了标准单细胞分析管道（如 Seurat3）中的差异基因。鉴于这些管道的重要作用，文章认为 GPT-4 可以立即使用差异基因。相比之下，SingleR 和 ScType 等其他方法需要额外的步骤来重新处理基因表达矩阵。与其他免费方法相比，GPT-4 的在线门户网站月费为 20 美元。GPT-4 API 的成本与查询的细胞类型数量呈线性相关，在本研究中，所有查询的成本都不超过 0.1 美元（图 2f）。我们通过模拟数据集进一步评估了 GPT-4 在复杂的真实数据场景（图 1c）中的鲁棒性。GPT-4 区分纯细胞类型和混合细胞类型的准确率为 93%，区分已知细胞类型和未知细胞类型的准确率为 99%（图 2g）。当输入的基因集包含较少的基因或被噪声污染时，GPT-4 的性能会下降，但仍然很高（图 2g）。这些结果证明了 GPT-4 在各种情况下的稳健性。最后，文章利用之前的模拟研究评估了 GPT-4 注释的可重复性。在 85% 的情况下，GPT-4 为相同的标记基因生成了完全相同的注释（图 2h），这表明其具有很高的可重复性。两个 GPT-4 版本的注释在大多数情况下显示出相同的一致得分，科恩氏 κ 为 0.65，显示出很大的一致性（图 2i）。

总结

在大多数研究和组织中，GPT-4的注释的75%的细胞类型与人类专家的手动注释相一致，这一结果证明了GPT-4在生成媲美人类专家的细胞类型注释方面的能力。研究团队表示，GPT-4在细胞类型注释中超越了GPT-3.5以及其他自动细胞类型注释方法。但我们还需要进一步验证GPT-4的质量和可靠性，毕竟Open AI公司很少披露对GPT4的训练过程。此外，该研究使用的是GPT-4标准版，而对GPT-4微调还可以进一步提高其在细胞类型注释中的性能。

论文链接：Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis | Nature Methods

2024年6月20日 16:22

ꄘ浏览量：0

ꂃ上一篇：无

ꁹ下一篇：无