可在数据限制下训练高维因果结构，德国DZNE团队提出一种深度神经架构

7,880 0 1200

编辑 | 萝卜皮

因果学习是科学人工智能的一个关键挑战，因为它使研究人员能够超越纯粹的相关或预测分析，学习潜在的因果关系，这对于科学理解以及广泛的下游任务非常重要。

受新兴生物医学问题的启发，德国神经退行性疾病中心（German Center for Neurodegenerative Diseases，DZNE）的研究人员提出了一种深度神经架构，用于从高维数据和先验因果知识的组合中学习变量之间的因果关系。

该团队将卷积神经网络和图神经网络结合在因果风险框架内，提供了一种在高维、噪声和数据限制条件下明显有效的方法，这些条件是许多应用（包括大规模生物学）的特征。

在实验中，研究人员发现所提出的方法可以有效地识别数千个变量中的新因果关系。结果包括广泛的（线性和非线性）模拟（其中基本事实是已知的并且可以直接比较），以及真实的生物学示例，其中模型应用于高维分子数据，并将其输出与完全看不见的验证实验进行比较。这些结果支持了深度学习方法可用于大规模学习因果网络的观点。

该研究以「Deep learning of causal structures in high dimensions under data limitations」为题，于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》。

可在数据限制下训练高维因果结构，德国DZNE团队提出一种深度神经架构

因果关系仍然是人工智能（AI）研究中的一个重要的开放领域，识别变量之间的因果关系的任务是许多科学领域的关键。学习因果结构方面的丰富工作包括 PC、LiNGAM、IDA、GIES、RFCI、ICP 和 MRCL 等方法。

通过将因果结构学习重新表述为连续优化问题，促进了将因果结构学习扩展到更大的问题，并且最近的神经方法（例如 SDI、DCDI、DCD-FG 和 ENCO）已经展示了最先进的性能。

然而，从数据中学习因果结构仍然很重要，并且继续带来挑战，特别是在许多现实世界问题中出现的条件下（例如高维度、有限的数据大小和隐藏变量）。

在生物医学中，代表基因或蛋白质等实体之间相互作用的因果网络发挥着核心概念和实践作用。人们越来越多地认识到这种网络是依赖于环境的，并且被认为是疾病异质性和治疗反应变化的基础。

表征这种异质性的一个关键瓶颈在于大规模学习因果结构的挑战性，因为一般的方法论问题以及生物领域的相关方面，例如高维度、复杂的潜在事件、隐藏/未测量变量、有限数据和噪音水平的存在。

在最新的研究中，DZNE 的研究人员提出了一种因果学习的深层架构，该架构特别受高维生物医学问题的推动。该方法在新兴的因果风险范式中运作，使研究人员能够利用人工智能工具并扩展到涉及数千个变量的非常高维度的问题。

学习者提出允许整合有关因果关系子集的部分知识，然后寻求超越最初已知的知识以学习所有变量之间的关系。这对应于一个常见的科学用例，其中一开始就可以获得一些先验知识（来自先前的实验或科学背景知识），但希望超越已知的知识来学习涵盖所有可用变量的模型。

可在数据限制下训练高维因果结构，德国DZNE团队提出一种深度神经架构

图示：新的学习方案概念概述及其在大规模生物实验中的应用。（来源：论文）

因果结构学习文献的很大一部分涉及学习模型，这些模型允许明确描述相关数据生成模型（包括观察分布和干预分布），并且在这个意义上是「生成的」。采用不同的方法，最近的一系列工作，考虑了变量之间因果关系的学习指标，这可以被视为与因果风险的概念相关。例如，这样的指示符可以编码，对于一对变量 A 和 B，A 是否对 B、B 对 A 有因果影响，或者两者都没有。

DZNE 团队提出的方法称为「深度判别因果学习」（deep discriminative causal learning，D²CL），属于后一种风格。该团队考虑因果结构学习问题的一个版本，其中期望的输出由观察变量之间因果关系的二元指标组成，即具有用变量标识的节点的有向图。可用的多元数据 X 被转换以向神经网络 (NN) 提供输入，其输出是因果指标的估计。D²CL 在底层框架（基于因果风险而不是生成因果模型）和利用神经网络方面都不同于经典的因果结构学习方法。

可在数据限制下训练高维因果结构，德国DZNE团队提出一种深度神经架构

图示：D²CL 架构、训练和推理概述。（来源：论文）

该方法的假设本质上也不同于经典因果结构学习中的假设，并且涉及数据生成过程（方法）中的更高级别的规律性。最近的许多研究也利用神经方法来学习因果结构，并引入基于有向无环图（DAG）框架的连续优化框架的基础。

相比之下，D²CL 使用不基于 DAG 的基于风险的方法。DZNE 团队利用因果风险的概念来提出新的学习者。与 D²CL 一样，近期其他团队提出的 CSIvA 方法寻求将输入数据直接映射到图形输出。

从某种意义上说，这两种方法都追求数据输入到图形输出的「直接」映射，关键区别在于 CSIvA 使用元学习并寻求跨系统泛化，而 D²CL 使用监督学习来推广给定系统的新干预措施（例如，感兴趣的生物系统）。

未来工作的一个重要方向可能是结合这两种方法，例如使用 CSIvA 为 D²CL 提供初始输入；这将结合一般的、基于模拟的学习和数据高效、针对特定系统的训练。

研究人员证明，特定情境的训练使 D²CL 能够成功学习一系列场景中的结构，包括具有挑战性的现实世界实验数据。此外，D²CL 显然可以扩展到大量变量（该团队展示了高达 p = 50,000 个节点的示例），并且适用于无法使用非常大的样本数据或强大的模拟引擎的情况。

可在数据限制下训练高维因果结构，德国DZNE团队提出一种深度神经架构

图示：大规模模拟数据的结果。（来源：论文）

但是，目前仍然缺乏严格的理论和对该研究中方法的理论特性的理解。未来理论工作的一个关键方向将是了解底层系统的精确条件，以确保直接映射方法能够保证特定因果结构的恢复。

一个有趣的现象是，所提出的方法可能会受益于「维度的祝福」，因为随着维度 p 的增长，学习问题通常会享受到更多的例子。相反，与已建立的统计因果模型相反，DZNE 团队的方法（在当前阶段）不能在小 p 体系中使用，因为示例的数量对于深度学习来说太少了。

论文链接：https://www.nature.com/articles/s42256-023-00744-z