更改

第158行: 第158行:  
其中,CD-NOD通过检测观测变量Vi和C之间的条件独立性,来检测哪些变量对应的因果机制发生了变化。这一步在异常检测和根本原因分析(root cause analysis)中非常有用,因为在一些实际问题中,虽然我们可能会观察到大量变量的联合分布的变化,但实际上只是由于与 C 有直接联系的少数根本原因。
 
其中,CD-NOD通过检测观测变量Vi和C之间的条件独立性,来检测哪些变量对应的因果机制发生了变化。这一步在异常检测和根本原因分析(root cause analysis)中非常有用,因为在一些实际问题中,虽然我们可能会观察到大量变量的联合分布的变化,但实际上只是由于与 C 有直接联系的少数根本原因。
 
    
 
    
 +
[[File:真实的因果关系图.png|400px|center|thumb|真实的因果关系图。其中g(C)和θ(C)表示未观测到的隐藏的变化因素,它们可以表示为随着C变化的函数。]]
   −
Figure: 真实的因果关系图。其中g(C)和θ(C)表示未观测到的隐藏的变化因素,它们可以表示为随着C变化的函数。
      
进一步地,在学习了因果骨架之后,我们通过独立变化原理(independent change principle)来判定因果方向。 也就是说,原因的分布(P(cause))和给定原因的结果的分布(P(effect|cause))是独立变化的,但这种独立性通常在错误的方向上不成立。对于两个相邻变量,当其中只有一个与 C 直接连接,也就是invariance的情况,是一种特殊情况。  
 
进一步地,在学习了因果骨架之后,我们通过独立变化原理(independent change principle)来判定因果方向。 也就是说,原因的分布(P(cause))和给定原因的结果的分布(P(effect|cause))是独立变化的,但这种独立性通常在错误的方向上不成立。对于两个相邻变量,当其中只有一个与 C 直接连接,也就是invariance的情况,是一种特殊情况。  
    +
[[File:CD-NOD搜索过程示例.png|400px|thumb|center|CD-NOD搜索过程示例。(a) 初始图。 (b)检测哪些变量对应的因果机制发生了变化。(c)恢复因果骨架。(d)识别因果方向。]]
   −
Figure: CD-NOD搜索过程示例。(a) 初始图。 (b)检测哪些变量对应的因果机制发生了变化。(c)恢复因果骨架。(d)识别因果方向。
      
从上述的分析我们很高兴地看到概率分布的变化其实有利于学习因果结构的。 回想下,在独立同分布的情况下,利用噪声项和原因之间的非对称独立性,只有在限定的函数空间下,因果方向才是唯一确定的。比如说,在线性高斯和在函数空间无任何限制的情况下,因果方向不能唯一确定。相反地,当有分布变化的时候,我们可以利用独立变化原理来确定因果方向,而不需要限制因果机制函数空间。
 
从上述的分析我们很高兴地看到概率分布的变化其实有利于学习因果结构的。 回想下,在独立同分布的情况下,利用噪声项和原因之间的非对称独立性,只有在限定的函数空间下,因果方向才是唯一确定的。比如说,在线性高斯和在函数空间无任何限制的情况下,因果方向不能唯一确定。相反地,当有分布变化的时候,我们可以利用独立变化原理来确定因果方向,而不需要限制因果机制函数空间。
第173行: 第173行:  
在这个工作中,我们提出时变因果模型,来表示非平稳时间序列中的因果过程。特别地,我们把随时间变化的因果机制(causal mechanism) 看做隐变量,而不是参数,并且对因果机制的变化进行建模。特别地,假设变量之间的因果关系是线性的,并且其中的隐变量:因果系数和噪声项的方差,满足auto-regressive models来变化。并且,由于因果模型描述了概率分布是如何随着时间变化的,所以如果我们知道因果模型是如何随着时间变化的,就可以以此做出适应性预测。
 
在这个工作中,我们提出时变因果模型,来表示非平稳时间序列中的因果过程。特别地,我们把随时间变化的因果机制(causal mechanism) 看做隐变量,而不是参数,并且对因果机制的变化进行建模。特别地,假设变量之间的因果关系是线性的,并且其中的隐变量:因果系数和噪声项的方差,满足auto-regressive models来变化。并且,由于因果模型描述了概率分布是如何随着时间变化的,所以如果我们知道因果模型是如何随着时间变化的,就可以以此做出适应性预测。
    +
[[File:时变因果模型示意图.png|400px|thumb|center|时变因果模型示意图。其中b和h是隐变量,他们分别用来表征满足auto-regressive model的因果系数和噪声项方差的对数。]]
   −
Figure: 时变因果模型示意图。其中b和h是隐变量,他们分别用来表征满足auto-regressive model的因果系数和噪声项方差的对数。
      
之后的识别潜在的因果过程(identifying latent causal process)的工作,比如 [Yao et al., 2021,2022],可以看做更进一步的扩展。其允许输入变量是图像,并且因果关系可以是非线性的。
 
之后的识别潜在的因果过程(identifying latent causal process)的工作,比如 [Yao et al., 2021,2022],可以看做更进一步的扩展。其允许输入变量是图像,并且因果关系可以是非线性的。
第182行: 第182行:  
图片识别的迁移学习(Domain Adaptation)任务通常会提供多组在不同source domain下图片x和标签y。其条件分布P(y|x)在不同domain下有一定变化。我们的目标是在使在source domain上训练的模型,通过迁移训练,能在未提供标签的target domain下具有良好表现。传统迁移学习着重于学习不同domain之间不变的部分,并使用这些不变的部分进行预测。与之不同的是,我们提出的iMSDA [Kong et. al., 2022]通过因果表征学习,识别出解释domain之间区别的因果隐变量,并使用这些隐变量对数据做translation,将其投射到同一domain进行训练,实现迁移学习。
 
图片识别的迁移学习(Domain Adaptation)任务通常会提供多组在不同source domain下图片x和标签y。其条件分布P(y|x)在不同domain下有一定变化。我们的目标是在使在source domain上训练的模型,通过迁移训练,能在未提供标签的target domain下具有良好表现。传统迁移学习着重于学习不同domain之间不变的部分,并使用这些不变的部分进行预测。与之不同的是,我们提出的iMSDA [Kong et. al., 2022]通过因果表征学习,识别出解释domain之间区别的因果隐变量,并使用这些隐变量对数据做translation,将其投射到同一domain进行训练,实现迁移学习。
   −
 
+
[[File:domain进行训练1.png|300px]][[File:domain进行训练2.png|300px]]
    
如上图所示,我们假设图片x和标签y是由因果隐变量zc和zs通过非线性(但可逆)的映射生成。其中,zc包含图片content信息(domain之间不变的部分),zs包含图片style信息(domain之间变的部分)。值得注意的是,在不同domain下,生成函数是不变的,变化的部分仅有zs部分的分布。在这种情况下,我们学习生成函数其实是所有图片的共有的渲染程序。为了因果隐变量zs的可识别性,我们假设zs在给定domain index u的情况下的条件独立性(这是一种实现minimal change principle的方式)。通过学习并识别zs和其生成过程,我们可以multi-domain的图片,可识别地translate到target domain,如上图将所有颜色数据都投射到红色数字domain中,从而直接在target domain(红色数字)上解决迁移学习问题。
 
如上图所示,我们假设图片x和标签y是由因果隐变量zc和zs通过非线性(但可逆)的映射生成。其中,zc包含图片content信息(domain之间不变的部分),zs包含图片style信息(domain之间变的部分)。值得注意的是,在不同domain下,生成函数是不变的,变化的部分仅有zs部分的分布。在这种情况下,我们学习生成函数其实是所有图片的共有的渲染程序。为了因果隐变量zs的可识别性,我们假设zs在给定domain index u的情况下的条件独立性(这是一种实现minimal change principle的方式)。通过学习并识别zs和其生成过程,我们可以multi-domain的图片,可识别地translate到target domain,如上图将所有颜色数据都投射到红色数字domain中,从而直接在target domain(红色数字)上解决迁移学习问题。
第195行: 第195行:     
<br>
 
<br>
 +
 
==应用==
 
==应用==
 
在本章节中,我们将探讨因果表征学习在迁移学习、适应性强化学习、以及动作识别等机器学习任务上的应用。
 
在本章节中,我们将探讨因果表征学习在迁移学习、适应性强化学习、以及动作识别等机器学习任务上的应用。
7,129

个编辑