更改

第146行: 第146行:  
===分布迁移情形===
 
===分布迁移情形===
 
在许多情况下,记录的数据可能是非平稳的(non-stationary),其数据分布随时间而变化,或者是异构的(heterogeneous),其数据分布随域(domain)变化。近来的研究表明,数据分布的变化反而可以给因果发现提供更多的信息,从而有助于因果发现。接下来着重介绍在分布发生变化的时候,不同情境下因果发现的几个工作。
 
在许多情况下,记录的数据可能是非平稳的(non-stationary),其数据分布随时间而变化,或者是异构的(heterogeneous),其数据分布随域(domain)变化。近来的研究表明,数据分布的变化反而可以给因果发现提供更多的信息,从而有助于因果发现。接下来着重介绍在分布发生变化的时候,不同情境下因果发现的几个工作。
 +
    
Causal discovery from nonstationary/heterogeneous data [CD-NOD, Huang et al., 2020]:
 
Causal discovery from nonstationary/heterogeneous data [CD-NOD, Huang et al., 2020]:
第177行: 第178行:     
之后的识别潜在的因果过程(identifying latent causal process)的工作,比如 [Yao et al., 2021,2022],可以看做更进一步的扩展。其允许输入变量是图像,并且因果关系可以是非线性的。
 
之后的识别潜在的因果过程(identifying latent causal process)的工作,比如 [Yao et al., 2021,2022],可以看做更进一步的扩展。其允许输入变量是图像,并且因果关系可以是非线性的。
 +
    
Partial Disentanglement for Domain Adaption [Kong et. al., 2022]
 
Partial Disentanglement for Domain Adaption [Kong et. al., 2022]
第185行: 第187行:     
如上图所示,我们假设图片x和标签y是由因果隐变量zc和zs通过非线性(但可逆)的映射生成。其中,zc包含图片content信息(domain之间不变的部分),zs包含图片style信息(domain之间变的部分)。值得注意的是,在不同domain下,生成函数是不变的,变化的部分仅有zs部分的分布。在这种情况下,我们学习生成函数其实是所有图片的共有的渲染程序。为了因果隐变量zs的可识别性,我们假设zs在给定domain index u的情况下的条件独立性(这是一种实现minimal change principle的方式)。通过学习并识别zs和其生成过程,我们可以multi-domain的图片,可识别地translate到target domain,如上图将所有颜色数据都投射到红色数字domain中,从而直接在target domain(红色数字)上解决迁移学习问题。
 
如上图所示,我们假设图片x和标签y是由因果隐变量zc和zs通过非线性(但可逆)的映射生成。其中,zc包含图片content信息(domain之间不变的部分),zs包含图片style信息(domain之间变的部分)。值得注意的是,在不同domain下,生成函数是不变的,变化的部分仅有zs部分的分布。在这种情况下,我们学习生成函数其实是所有图片的共有的渲染程序。为了因果隐变量zs的可识别性,我们假设zs在给定domain index u的情况下的条件独立性(这是一种实现minimal change principle的方式)。通过学习并识别zs和其生成过程,我们可以multi-domain的图片,可识别地translate到target domain,如上图将所有颜色数据都投射到红色数字domain中,从而直接在target domain(红色数字)上解决迁移学习问题。
 +
    
On the Identifiability of Nonlinear ICA: Sparsity and Beyond [Zheng et. al., 2022]
 
On the Identifiability of Nonlinear ICA: Sparsity and Beyond [Zheng et. al., 2022]
第191行: 第194行:  
最后,我们统一探讨独立成分分析(ICA)和因果学习之间的关系。简单来说,因果发现是ICA问题的一种特殊情况。ICA解决的问题是从(线性或非线性)混杂的信号中识别出相互独立的成分。而函数功能因果模型(FCM)的数据生成过程正是将相互独立的噪声,通过因果关系混杂成观测到数据。两者唯一的区别是,FCM在结构上需满足有向非环图(DAG),或在时序数据上满足Granger Causality假设等。线性ICA的可识别性只需满足non-Gaussian source就可达到,因此LiNGAM能将ICA直接应用到线性条件下的因果发现问题。然而,nonlinear ICA的可识别性是非常困难的问题。直到近两年,人们才发现在能找到多个domain的数据,并且因果隐变量在额外提供的surrogate variable下被条件独立时,我们才能恢复出这些因果隐变量。在[Ricardo Pio et al. 2022] 中,我们就是使用这种nonlinear ICA的可识别性,实现非线性的因果发现的。
 
最后,我们统一探讨独立成分分析(ICA)和因果学习之间的关系。简单来说,因果发现是ICA问题的一种特殊情况。ICA解决的问题是从(线性或非线性)混杂的信号中识别出相互独立的成分。而函数功能因果模型(FCM)的数据生成过程正是将相互独立的噪声,通过因果关系混杂成观测到数据。两者唯一的区别是,FCM在结构上需满足有向非环图(DAG),或在时序数据上满足Granger Causality假设等。线性ICA的可识别性只需满足non-Gaussian source就可达到,因此LiNGAM能将ICA直接应用到线性条件下的因果发现问题。然而,nonlinear ICA的可识别性是非常困难的问题。直到近两年,人们才发现在能找到多个domain的数据,并且因果隐变量在额外提供的surrogate variable下被条件独立时,我们才能恢复出这些因果隐变量。在[Ricardo Pio et al. 2022] 中,我们就是使用这种nonlinear ICA的可识别性,实现非线性的因果发现的。
    +
[[File:nonlinear ICA.png|800px|center|thumb]]
    
因果表征学习则更是与ICA息息相关。例如,之前我们讨论的时序因果表征学习[Yao et al., 2021 & 2022]和迁移学习[Kong et. al., 2022],都可视为这类情况下的nonlinear ICA在因果表征学习领域的拓展。然而,这类ICA方法的限制在于,训练数据必须含有足以解释domain区别的surrogate variable,而且这些surrogate variable可使因果隐变量独立。自然,我们会有疑问:在没有surrogate variable的情况下,nonlinear ICA是否也能达到的可识别性呢?在[Zheng et. al., 2022]中,我们使用structural sparsity assumption来回答这个问题。我们发现如果在生成过程中,对每个隐变量Si,我们都能找到一组变量{Xi},使得Si是这组变量唯一的共有parent时,nonlinear ICA就可以达到可识别性。例如,在左图中,对于X1和X4,S1是它们之间唯一共有的parent。在这种结构稀疏性的条件下,我们可以在没有surrogate variable的情况下实现nonlinear ICA的可识别性。这类sparse nonlinear ICA在因果表征学习上的拓展会是一个很有意思的研究方向。
 
因果表征学习则更是与ICA息息相关。例如,之前我们讨论的时序因果表征学习[Yao et al., 2021 & 2022]和迁移学习[Kong et. al., 2022],都可视为这类情况下的nonlinear ICA在因果表征学习领域的拓展。然而,这类ICA方法的限制在于,训练数据必须含有足以解释domain区别的surrogate variable,而且这些surrogate variable可使因果隐变量独立。自然,我们会有疑问:在没有surrogate variable的情况下,nonlinear ICA是否也能达到的可识别性呢?在[Zheng et. al., 2022]中,我们使用structural sparsity assumption来回答这个问题。我们发现如果在生成过程中,对每个隐变量Si,我们都能找到一组变量{Xi},使得Si是这组变量唯一的共有parent时,nonlinear ICA就可以达到可识别性。例如,在左图中,对于X1和X4,S1是它们之间唯一共有的parent。在这种结构稀疏性的条件下,我们可以在没有surrogate variable的情况下实现nonlinear ICA的可识别性。这类sparse nonlinear ICA在因果表征学习上的拓展会是一个很有意思的研究方向。
7,129

个编辑