更改

跳到导航 跳到搜索
添加941字节 、 2024年5月24日 (星期五)
第13行: 第13行:     
=Do形式及解释=
 
=Do形式及解释=
根据Erik Hoel的首篇[[因果涌现]]论文,有效信息(EI)是定义在一般的有效状态、离散时间上的马尔科夫链上的。定义如下:
+
原始的有效信息是定义在离散的马尔科夫链上的。然而,为了能够更广泛地应用,在这里我们探讨有效信息的更一般的形式。
   −
对于任意的马尔科夫链[math]\chi[/math],它的状态状态空间为[math]\mathcal{S}[/math],转移概率矩阵定义为[math]M[/math],它在t时刻的状态变量为[math]X_t[/math], t+1时刻的状态变量为[math]X_{t+1}[/math],则EI定义为:
+
考虑两个随机变量:[math]X[/math]和[math]Y[/math],分别代表因变量(Cause Variable)和果变量(Effect Variable),并且假定它们的取值区间分别是[math]\mathcal{X}[/math][math]\mathcal{Y}[/math]。同时,我们需要说明[math]X[/math]如何影响[math]Y[/math]的,这通常可以用因果机制[math]f[/math]进行描述。所谓的因果机制是指在给定[math]X[/math]取值[math]x\in \mathcal{X}[/math]下,[math]Y[/math]在[math]\mathcal{Y}[/math]上任意取值[math]y\in \mathcal{Y}[/math]的条件概率:
 +
<math>
 +
f\equiv Pr(Y=y|X=x)
 +
</math>
 +
 
 +
则针对这个因果机制[math]f[/math],它所对应的有效信息EI的定义为:
    
<math>
 
<math>
EI\equiv I(\tilde{X}_{t+1};X_t|do(X_t\sim U(\mathcal{S})))
+
EI\equiv I(X:Y|do(X~U(\mathcal{X})), f)=I(\tilde{X}:\tilde{Y})
 
</math>
 
</math>
   −
这里,[math]\tilde{X}_{t+1}[/math]代表经过对[math]X_t[/math]实施do干预,成为均匀分布的随机变量以后,经由动力学[math]M[/math]的传导作用而成为新的[math]t+1[/math]时刻的状态变量,且满足:
+
这里,[math]do(X~U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预,使其服从[math]\mathcal{X}[/math]上的均匀分布。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math][math]Y[/math]变量,并且在这个干预中,始终保持因果机制[math]f[/math]不变。这样:
 
   
<math>
 
<math>
P(\tilde{X}_{t+1}=j)=\sum_{i\in \mathcal{S}}P(X_{t}=i) M_{ij}=\frac{\sum_{i\in \mathcal{S}} M_{ij}}{N}.
+
P(\tilde{Y}=y)=\sum_{x\in \mathcal{X}}P(X=x) Pr(Y=y|X=x)=\sum_{i\in \mathcal{X}} \frac{Pr(Y=y|X=x)}{#(\mathcal{X})}.
 
</math>
 
</math>
 +
因此,所谓机制[math]f[/math]的有效信息EI,就是[math]\tilde{X}[/math]和[math]\tilde{Y}[/math]的互信息。这里[math]\tilde{X}[/math]代表被[math]do[/math]干预后的[math]X[/math]变量,[math]\tilde{Y}[/math]则代表,在保持因果机制[math]f[/math]不变的情况下,当[math]X[/math]被干预后,被间接改变分布的[math]Y[/math]变量。
 +
 +
    
尽管在EI的这个定义中也包含了[[互信息]]度量,但是与传统[[信息论]]中的[[互信息]]不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性与数据度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
 
尽管在EI的这个定义中也包含了[[互信息]]度量,但是与传统[[信息论]]中的[[互信息]]不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性与数据度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
332

个编辑

导航菜单