第12行: |
第12行: |
| | | |
| ===因果发现传统工作简介=== | | ===因果发现传统工作简介=== |
− | 寻找因果关系的传统方法是通过随机对照实验。然而,随机对照实验通常需要耗费大量的时间和资源,有时甚至可能涉及伦理问题。例如,基因敲入是一种广泛用于创建疾病模型的技术。通常导致疾病的不是单个基因,而是由多个基因组成的网络。要找到这个网络可能需要太多的实验才能可行。因此,必须寻求替代方法——从观测数据中发现因果关系,称为'''因果发现 causal discovery''',因为观测数据更容易获得。 | + | 寻找因果关系的传统方法是通过随机对照实验。然而,随机对照实验通常需要耗费大量的时间和资源,有时甚至可能涉及伦理问题。例如,基因敲入是一种广泛用于创建疾病模型的技术。通常导致疾病的不是单个基因,而是由多个基因组成的网络。要找到这个网络可能需要太多的实验才能可行。因此,必须寻求替代方法——从观测数据中发现因果关系,称为'''因果发现''',因为观测数据更容易获得。 |
− | | |
| | | |
| 经典的因果发现方法通常是寻找观测变量之间的因果关系,其大致分为两类。在 1980 年代末和 1990 年代初,人们注意到,在适当的假设下,可以根据变量之间的条件独立性关系恢复潜在因果结构的马尔可夫等价类 [Spirtes et al., 1993]。这产生了基于约束的方法(constraint-based method),该方法利用条件独立性测试(conditional independence tests)来进行因果发现。由此产生的等价类可能包含多个 有向无环图(DAG,或其他表示因果结构的图对象),这些DAG共享相同的条件独立性关系。所需的假设包括因果马尔可夫条件(causal Markov condition)和忠实度假设(faithfulness assumption),这两个假设建立了因果图中的d-分离属性与数据中的统计独立性属性之间的对应关系。相反,基于分数的方法 [Chickering, 2003, Heckerman et al., 1995] 不是使用统计测试,而是搜索在某些评分标准下给出最高分数的等价类,例如采用贝叶斯信息标准 [BIC, Schwartz, 1978]、给定数据的图的后验 [Heckerman et al., 1997] 和广义评分函数 [generalized score, Huang et al., 2018]。 | | 经典的因果发现方法通常是寻找观测变量之间的因果关系,其大致分为两类。在 1980 年代末和 1990 年代初,人们注意到,在适当的假设下,可以根据变量之间的条件独立性关系恢复潜在因果结构的马尔可夫等价类 [Spirtes et al., 1993]。这产生了基于约束的方法(constraint-based method),该方法利用条件独立性测试(conditional independence tests)来进行因果发现。由此产生的等价类可能包含多个 有向无环图(DAG,或其他表示因果结构的图对象),这些DAG共享相同的条件独立性关系。所需的假设包括因果马尔可夫条件(causal Markov condition)和忠实度假设(faithfulness assumption),这两个假设建立了因果图中的d-分离属性与数据中的统计独立性属性之间的对应关系。相反,基于分数的方法 [Chickering, 2003, Heckerman et al., 1995] 不是使用统计测试,而是搜索在某些评分标准下给出最高分数的等价类,例如采用贝叶斯信息标准 [BIC, Schwartz, 1978]、给定数据的图的后验 [Heckerman et al., 1997] 和广义评分函数 [generalized score, Huang et al., 2018]。 |
| | | |
− | | + | 另一组方法是基于函数因果模型 functional causal model(FCM),将效果表示为直接原因的函数以及独立的噪声项。研究表明,通过适当地约束模型类,因果方向是可识别的。具体来说,当在正确的因果方向上估计 FCM 时,估计的噪声项与假设原因独立,但在想反的方向上不成立。可识别的因果模型包括线性非高斯无环模型 [LiNGAM, Shimizu et al., 2006]、非线性加性噪声模型 [additive noise causal model, Hoyer et al., 2009, Zhang and Hyvärinen, 2009a] 和后非线性模型 [post-nonlinear causal model, Zhang and Chan, 2006, Zhang and Hyvärinen, 2009b]。但是需要注意的是,如果函数因果模型的函数空间没有约束,则无法识别因果方向,因为总是可以在反向上找到独立于预测变量的噪声项 [Zhang et al, 2015]。 |
− | 另一组方法是基于函数因果模型(functional causal model, FCM),将效果表示为直接原因(direct cause)的函数以及独立的噪声项。研究表明,通过适当地约束模型类,因果方向是可识别的。具体来说,当在正确的因果方向上估计 FCM 时,估计的噪声项与假设原因独立,但在想反的方向上不成立。可识别的因果模型包括线性非高斯无环模型 [LiNGAM, Shimizu et al., 2006]、非线性加性噪声模型 [additive noise causal model, Hoyer et al., 2009, Zhang and Hyvärinen, 2009a] 和后非线性模型 [post-nonlinear causal model, Zhang and Chan, 2006, Zhang and Hyvärinen, 2009b]。但是需要注意的是,如果函数因果模型的函数空间没有约束,则无法识别因果方向,因为总是可以在反向上找到独立于预测变量的噪声项 [Zhang et al, 2015]。
| |
− |
| |
| | | |
| 上面介绍的方法已被扩展到更一般的场景。比如说LiNGAM已被扩展到有环的因果图 [Lacerda et al., 2008] 和存在潜在混杂因素的情况 [Hoyer et al., 2008] 。基于LiNGAM拓展的Specific and Shared Causal Relation Modeling [SSCM, Huang et al., 2019] 不仅可以提供整体的因果关系,还可以提供针对个体的个性化的因果知识, 以及基于因果关系来做聚类。同时,研究表明即使存在选择偏差的情况下,因果模型(包括因果方向)也是可能识别的 [Zhang et al., 2016]。 | | 上面介绍的方法已被扩展到更一般的场景。比如说LiNGAM已被扩展到有环的因果图 [Lacerda et al., 2008] 和存在潜在混杂因素的情况 [Hoyer et al., 2008] 。基于LiNGAM拓展的Specific and Shared Causal Relation Modeling [SSCM, Huang et al., 2019] 不仅可以提供整体的因果关系,还可以提供针对个体的个性化的因果知识, 以及基于因果关系来做聚类。同时,研究表明即使存在选择偏差的情况下,因果模型(包括因果方向)也是可能识别的 [Zhang et al., 2016]。 |
− |
| |
| | | |
| 目前的因果发现方法集中在寻找观测变量之间的因果关系, 但是在现实世界的问题中,很多相关的特征可能没有被观察到,并且一些观测变量可能不是潜在的因果变量。例如,我们不能直接将图像像素视为因果变量。因此,正如在第一部分中所说的,我们想从测量的高维变量中学习潜在的因果表征(causal representation),以及它们之间的因果关系,它在通用人工智能和科学领域都是必不可少的。例如,在 AI 中,我们希望从高维视频序列中自动提取底层的低维因果变量或概念,这些变量或概念对于视频理解至关重要,从而促进下游预测或决策任务。在神经科学中,从 fMRI 记录中测量出数以万计的体素,一个关键问题是如何识别和分层聚类潜在的大脑功能区域并发现信息流。 | | 目前的因果发现方法集中在寻找观测变量之间的因果关系, 但是在现实世界的问题中,很多相关的特征可能没有被观察到,并且一些观测变量可能不是潜在的因果变量。例如,我们不能直接将图像像素视为因果变量。因此,正如在第一部分中所说的,我们想从测量的高维变量中学习潜在的因果表征(causal representation),以及它们之间的因果关系,它在通用人工智能和科学领域都是必不可少的。例如,在 AI 中,我们希望从高维视频序列中自动提取底层的低维因果变量或概念,这些变量或概念对于视频理解至关重要,从而促进下游预测或决策任务。在神经科学中,从 fMRI 记录中测量出数以万计的体素,一个关键问题是如何识别和分层聚类潜在的大脑功能区域并发现信息流。 |
− |
| |
| | | |
| 在本篇推送中,我们将结合传统因果发现,从方法,应用和工具角度,详细探讨如何在独立同分布情形、时间序列和分布迁移情形下进行因果表征学习,寻找因果隐变量和它们之间的关系。我们总结了因果表征学习在迁移学习,适应性强化学习和视频动作识别中的应用。最后,我们对目前的可直接使用的分析工具做简要介绍和并对未来的研究和应用方向进行展望。 | | 在本篇推送中,我们将结合传统因果发现,从方法,应用和工具角度,详细探讨如何在独立同分布情形、时间序列和分布迁移情形下进行因果表征学习,寻找因果隐变量和它们之间的关系。我们总结了因果表征学习在迁移学习,适应性强化学习和视频动作识别中的应用。最后,我们对目前的可直接使用的分析工具做简要介绍和并对未来的研究和应用方向进行展望。 |
| | | |
− |
| |
| ==寻找因果隐变量和它们的关系== | | ==寻找因果隐变量和它们的关系== |
| 按所使用数据的不同性质,下面我们将把近几年提出的因果表征学习的方法分成三类进行讨论,它们分别适用于独立同分布数据、时间序列,以及有分布迁移性质的数据(比如非平稳或异构数据)。 | | 按所使用数据的不同性质,下面我们将把近几年提出的因果表征学习的方法分成三类进行讨论,它们分别适用于独立同分布数据、时间序列,以及有分布迁移性质的数据(比如非平稳或异构数据)。 |