准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

3,936 0 2800

编辑 | 萝卜皮

单细胞和空间转录组测序是两种最近优化的转录组测序方法，越来越多地用于研究癌症和相关疾病。

细胞注释，特别是恶性细胞注释，对于这些研究中的深入分析至关重要。然而，当前的算法缺乏准确性和泛化性，使得难以一致、快速地从泛癌数据中推断出恶性细胞。

为了解决这个问题，厦门大学和上海交通大学的研究团队提出了 Cancer-Finder，一种基于域泛化（Domain Generalization，DG）的深度学习算法，可以快速识别单细胞数据中的恶性细胞，平均准确率达到 95.16%。重要的是，通过用空间转录组数据集替换单细胞训练数据，Cancer-Finder 可以准确识别空间幻灯片上的恶性 spots。

该研究以「Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics」为题，于 2024 年 3 月 2 日发布在《Nature Communications》。

准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

人们早已认识到肿瘤异质性是开发有效癌症治疗的重大障碍。单细胞 RNA 测序（scRNA-seq）技术能够在单细胞水平上全面了解肿瘤内和肿瘤间的异质性，从而促进个性化治疗的开发。

空间转录组学 (ST) 伴随着 scRNA-seq 的脚步，已经成为一种有前途的测序技术。它可以捕获完整组织内转录活动的空间背景，并越来越多地应用于癌症研究，在癌症异质性研究中产生了许多突破性的发现。在这些研究中，对单细胞 spots（ST 中的测量单位）恶性状态的精确注释至关重要且基础。

恶性细胞 spots 主要通过标记基因或拷贝数变异（CNV）事件来识别。目前，迫切需要一种精度高、泛化性能好、易于扩展以处理多种数据类型的无参考恶性细胞注释算法。

厦门大学和上海交通大学的研究团队提出了 Cancer-Finder，一种基于域泛化的恶性细胞注释策略，可以从具有不同分布的多个数据集中学习泛化模型。这允许在具有未定义分布（未知域）的单细胞数据内直接区分泛癌肿瘤微环境中的恶性细胞和正常细胞。

此外，通过替换训练集，该团队快速扩展 Cancer-Finder 来注释 ST 数据中的恶性 spots，并在使用小训练集训练后证明了其高预测精度。

通过精确识别 5 个 ccRCC ST 载玻片上的恶性 spots，该团队成功发现了由 10 个基因组成的基因特征；这些基因往往在肿瘤和正常组织之间的界面处富集，可能与侵袭性肿瘤微环境的形成有关，并可作为理想的预后指标。

准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

图示：Cancer-Finder 概述及其应用。（来源：论文）

由于该方法的高性能和计算简单性，这里采用风险外推法。在风险外推中结合平均风险和方差风险，使 Cancer-Finder 能够在数据集、癌症类型和技术平台上实现良好的泛化性能。

与现有技术相比，Cancer-Finder 对多种癌症的 scRNA-seq 数据集的恶性注释建立了更高的精度和稳定性，在金标准数据集中实现了 98.30% 的准确率，在银标准数据集中实现了 90.89% 的相似性。Cancer-Finder 更加准确，是因为深度学习模型比逻辑回归等传统模型更具适应性并且具有更大的拟合能力。

准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

图示：Cancer-Finder的性能评估。（来源：论文）

此外，Cancer-Finder还有效利用了积累的癌组织数据和注释信息（主要通过算法计算和手动注释），从而增加了准确区分恶性和非恶性细胞的机会。虽然大多数现有算法都基于简单模型或单数据集分析，但前者容易受到模型限制，而后者容易受到重点数据集的质量及其包含的细胞类型的影响。

与其他方法不同（CopyKAT 必须推断 CNV 并根据 CNV 配置文件进行分类，SCEVAN 需要表征克隆结构，CaSee 必须找到训练的参考），Cancer-Finder 的推断过程只需要简单的前向传播线性计算。随着单细胞数据量的增加，相信使用更大量的数据进行再训练将为 Cancer-Finder 在癌症研究中提供巨大的潜力。

准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

图示：Cancer-Finder 在 ccRCC ST 数据集中肿瘤间异质性分析中的应用。（来源：论文）

通过替换训练数据集，研究人员快速扩展 Cancer-Finder 来注释 ST 数据中的恶性 spots，并在使用小训练集训练后证明了其超高的预测精度。

虽然训练集中只有少量相关 ST 数据，Cancer-Finder 在训练组织的 ST 数据上显示出很高的准确性 (82.00-97.37%)。

此外，预先训练的 Cancer-Finder 可以轻松扩展到由其他技术生成的具有相当序列分辨率的 ST 数据集，验证了 Cancer-Finder 强大的泛化能力。

除了扩展训练数据类型外，Cancer-Finder 还可以扩展为通过替换训练标签来注释其他细胞状态（或细胞类型）。例如，将训练标签更改为免疫细胞，使得 Cancer-Finder 能够从单个细胞中准确识别免疫细胞。

在外部测试中，Cancer-Finder 识别肺、乳腺、卵巢和肝脏中免疫细胞的准确度在 85.21% 到 95.76% 之间。随着单细胞数据的积累，研究人员将能够使用 Cancer-Finder 来注释各种细胞状态，例如稀有细胞。

准确率达95.16%，快速识别恶性肿瘤细胞，厦大和上海交大团队开发域泛化深度学习算法

图示：与基于外部验证数据集和大型数据库应用的现有方法进行性能比较。（来源：论文）

尽管有这些优势，但目前的模式仍然有发展空间。Cancer-Finder 在大多数癌症上表现良好（准确度 > 0.8），但其在血液肿瘤中的表现有限，可能是由于血液肿瘤和实体瘤之间存在显著差异。因此，研究人员不推荐 Cancer-Finder 用于血液肿瘤数据。

研究人员表示，Cancer-Finder 忽略了 ST 数据中 spots 之间的空间关系，这是一个有可能提高其整体功效的因素。这些都值得进一步探索。

论文链接：https://www.nature.com/articles/s41467-024-46413-6