可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

10,552 0 400

编辑 | 红菜苔

随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。

树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust+，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码器前面的输入掩码模块和解码器后面的输出掩码模块。

InClust+ 可用于整合来自相似细胞群的 scRNA-seq 和 MERFISH 数据，并根据 scRNA-seq 数据估算 MERFISH 数据。InClust+ 具有将多模态数据（例如具有基因表达、染色质可及性和蛋白质丰度的三模态数据）与批次效应整合的能力。

研究人员使用 inClust+ 整合一个未标记的单模态 scRNA-seq 数据集和两个标记的多模态 CITE-seq 数据集，将标签从 CITE-seq 数据集转移到 scRNA-seq 数据集，并生成单模态 scRNA-seq 数据中缺失的蛋白质丰度模态。

该研究以「InClust+: the deep generative framework with mask modules for multimodal data integration, imputation, and cross-modal generation」为题，于 2024 年 1 月 24 日发布在《BMC Bioinformatics》。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

近年来，单细胞技术的进步使得在单个细胞中获得多种性状成为可能，例如单细胞 RNA 测序 (scRNA-seq)、转座酶可及染色质测序的单细胞测定 (scATAC-seq) 和单细胞亚硫酸氢盐测序 (scBS-seq)。

这些单细胞方法极大地促进了科学家对细胞的理解。从而揭示细胞群的异质性，推断细胞发育轨迹，并重建基因调控网络。但以一种方式收集的数据仅代表细胞状态的有限侧面。为了获得更全面、更全面的信息，需要将来自不同模态的数据整合在一起，从而更好地揭示数据的生物学意义。

为了完成这些任务，树兰医院、中国科学院和北京师范大学的合作团队在之前的研究中，曾提出了 inClust（集成聚类），一种灵活的转录组数据深度生成框架。在这里，该团队通过添加两个新模块来扩展 inClust，即编码器前面的输入掩码模块和解码器后面的输出掩码模块。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+的架构及其应用。（来源：论文）

该团队将增强的 inClust 命名为 inClust+，并证明它不仅可以完成数据集成，还可以利用掩模模块的优点完成基因插补。

研究人员将 inClust+ 应用于各种数据集，包括多个单模态（未配对）数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中，inClust+展示了其数据集成、插补和数据生成的能力。

首先，通过 mask 模块的优点，参考类似细胞群的 scRNA-seq 数据，使用 inClust+ 对 MERFISH 数据进行插补。

然后，通过三个示例评估了具有堆叠式编码器-解码器架构和掩模模块的 inClust+ 的多模态集成能力。结果表明，inClust+ 不仅可以混合模态之间的数据，还可以分离生物学差异并消除批次效应。

最后，研究人员使用 inClust+ 将数据与单模态数据集和多模态数据集进行集成。结果表明，inClust+ 可以将标签从多模态数据转移到单模态数据，并补全单模态数据中缺失的模态。

可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

图示：inClust+ 整合多模态（三重）数据集的图表。（来源：论文）

InClust+ 的应用并不限于上述情况。对于基因插补，会出现一种情况，即所有数据集都有自己的特定基因，而不是只有一个数据集有自己独特的基因。通过调整输出掩码，inClust+ 可以基于共享基因整合两个数据集，并通过引用相应数据集中的特定基因来估算两个数据集中的其余基因。对于缺失模态生成，会出现所有数据集都有自己特定模态的情况，inClust+ 可以基于共享模态整合两个数据集，并通过引用相应数据集中的特定模态来生成每个数据集中的缺失模态。

由于inClust+ 是 inClust 在多模态应用中的扩展，因此与其他集成方法相比，inClust+ 和 inClust 可以作为一个整体放在一起。该团队的模型（inClust 和 inClust +）与其他集成方法的区别在于其适应不同情况的灵活性以及尽可能集成信息的能力。

灵活性体现在以下两点：首先，InClust 可以灵活地处理标签信息；InClust+也继承了这一优点，并体现在 inClust+ 可以半监督模式将标签从参考数据集转移到查询数据集。其次，inClust+ 中的两个 mask 模块可以灵活调整以处理不同的输入。

模型尽可能整合信息的能力体现在以下两点：首先，在inClust中证明该模型不仅可以使用表达数据，还可以使用协变信息（例如批次）和标签信息；这一优点也被 inClust+ 继承了。其次，如 inClust+ 所示，该模型不仅可以利用共享数据（共享基因表达或共享模态）进行整合，还可以利用特定基因或模态来进行缺失基因插补或缺失模态生成。

简而言之，该团队的模型不仅可以集成数据，还可以在数据集成的基础上完成其他下游任务（例如分布外生成、标签转移和新型识别、空间域分割、跨模态插补和生成）。

添加掩模是增强深度学习模型的常见方法。在 inClust+ 中，研究人员通过一对掩码模块（输入掩码模块和输出掩码模块）来增强模型。掩模的灵活设计和使用使模型能够完成一系列任务，这些任务通常需要多个模型分别完成。例如，inClust+ 可以利用常见的和数据集特定的基因进行整合和插补，如 uniPort。掩码使事情变得简单：输入掩码筛选出常见基因，输出掩码筛选出相应数据的常见基因和数据集特定基因。

同时，inClust+ 可以集成多模态数据集来实现多域翻译，作为跨模态自动编码器。输入掩码和输出掩码使inClust+ 成为多个独立且相关的编码器-解码器组合。因此，inClust+ 不仅可以对同一模态的数据进行压缩和重构，还可以将一种模态的数据压缩并重构为另一种模态，从而实现跨模态翻译。

此外，inClust+ 可以集成多模态数据集和单模态数据集，将标签从多模态数据转移到单模态数据，并通过数据生成将单模态数据完整地转换为多模态数据，如 sciPENN。InClust+ 指的是多模态数据集，用于生成单模态数据集中缺失模态的数据。一般来说，作为一种模型增强技术，在模型中添加一对掩模不仅限于 inClust，还可以扩展到具有类似编码器-解码器结构的深度学习模型，例如 scArches。

论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05656-2

# AI行业动态