更改

删除6字节 、 2024年7月4日 (星期四)
第25行: 第25行:  
</math>
 
</math>
   −
这里,X是因变量,Y是果变量,[math]do(X\sim U)[/math]表示对因变量X进行[[do干预]],将X的分布变为均匀分布,P代表X到Y的因果机制,它是一个概率转移矩阵,即[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]。在这一干预下,同时假设X到Y的因果机制P保持不变,那么,Y就会间接地受到X的do干预的影响而发生变化。则EI度量的是经过干预后的X和Y之间的互信息。
+
这里,P代表X到Y的因果机制,它是一个概率转移矩阵,即[math]p_{ij}\equiv Pr(Y=j|X=i)[/math];X是因变量,Y是果变量,[math]do(X\sim U)[/math]表示对因变量X进行[[do干预]],将X的分布变为均匀分布。在这一干预下,同时假设X到Y的因果机制P保持不变,那么,Y就会间接地受到X的do干预的影响而发生变化。则EI度量的是经过干预后的X和Y之间的互信息。
    
之所以引入do操作,目的是为了消除数据X的分布对EI的影响,以使得最后的EI度量仅仅是因果机制f的函数,而与数据X无关。
 
之所以引入do操作,目的是为了消除数据X的分布对EI的影响,以使得最后的EI度量仅仅是因果机制f的函数,而与数据X无关。
第70行: 第70行:  
{{NumBlk|:||{{EquationRef|example}}}}
 
{{NumBlk|:||{{EquationRef|example}}}}
   −
我们可以看到,第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高,这是因为这一概率转移是一个完全确定性的转移,也就是从某一个状态出发,它会以100%的概率转移到另一个状态。然而,并不是所有的确定性转移的矩阵都会对应较大的EI,比如[math]P_3[/math]这个矩阵,虽然它的转移概率也都是100%,但是因为所有后面三种状态都会转移到第1个状态,因此我们将无法区分它上一时刻是处于何种状态的。因此这种情况下它的EI也会比较低。我们称后一种情况存在着简并性。因此,如果一个转移矩阵具有较高的确定性和较低的简并性,则它的EI就会很高。进一步,存在如下对EI的分解:
+
我们可以看到,第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高,这是因为这一概率转移是一个完全确定性的转移,也就是从某一个状态出发,它会以100%的概率转移到另外某一个状态。然而,并不是所有的确定性转移的矩阵都会对应较大的EI,比如[math]P_3[/math]这个矩阵,虽然它的转移概率也都是100%或0,但是因为所有后面三种状态都会转移到第1个状态,因此我们将无法区分它上一时刻是处于何种状态的。这种情况下它的EI也会比较低,我们称这种情况存在着'''简并性'''。于是,如果一个转移矩阵具有较高的确定性和较低的简并性,则它的EI就会很高。进一步,存在如下对EI的分解:
    
<math>
 
<math>
第78行: 第78行:  
这里,Det是对确定性(Determinism)的缩写,而Deg是对简并性(Degeneracy)的缩写,EI是二者之差。在上面的表格中,我们将矩阵所对应的Det和Deg数值也都列在了下面。
 
这里,Det是对确定性(Determinism)的缩写,而Deg是对简并性(Degeneracy)的缩写,EI是二者之差。在上面的表格中,我们将矩阵所对应的Det和Deg数值也都列在了下面。
   −
第一个转移概率矩阵是一个[[置换排列矩阵]](Permutation),它是可逆的,因此确定性最高,没有简并性,因而EI最大;第二个矩阵的前三个状态都会以1/3的概率跳转到彼此,因此确定性程度最低,而简并性也很低,EI是0.81;第三个矩阵虽然也是确定性的矩阵,因而确定性最高,但是由于后三个状态都跳转到1,因此,从1状态不能推知它来自于哪个状态,因此简并性最高,最终的EI与第二个相同,仍然是0.81。
+
第一个转移概率矩阵是一个[[排列矩阵]](Permutation),它是可逆的,因此确定性最高,没有简并性,因而EI最大;第二个矩阵的前三个状态都会以1/3的概率跳转到彼此,因此确定性程度最低,而简并性也很低,EI是0.81;第三个矩阵虽然也是非0即1的转移概率,因而确定性最高,但是由于后三个状态都跳转到1,因此,从1状态不能推知它来自于哪个状态,因此简并性最高,最终的EI与第二个相同,仍然是0.81。
   −
尽管在原始文献中<ref name=hoel_2013 />,有效信息大多应用于离散状态的马尔科夫链,但是,[[张江]]、[[刘凯威]]、[[杨明哲]]等人将EI的定义扩展到了更一般的连续变量的情形<ref name=zhang_nis /><ref name=yang_nis+ /><ref name=liu_exact />。这一扩充的基本思想是从EI的原始定义出发,将因变量x干预为一个足够大的有界区间,即[math][-\frac{L}{2},\frac{L}{2}]^n[/math]上的均匀分布,然后再假设因果机制为一种满足高斯分布形式的条件概率分布,其均值为确定值映射[math]f(x)[/math],协方差矩阵为[math]\Sigma[/math],从而在此基础上,再度量因果变量之间的有效信息。这里的因果机制是由映射[math]f(x)[/math]和协方差矩阵共同决定的,也就是条件概率[math]Pr(y|x)[/math]来决定的。
+
尽管在原始文献中<ref name=hoel_2013 />,有效信息大多应用于离散状态的马尔科夫链,但是,[[张江]]、[[刘凯威]]、[[杨明哲]]等人将EI的定义扩展到了更一般的连续变量的情形<ref name=zhang_nis /><ref name=yang_nis+ /><ref name=liu_exact />。这一扩充的基本思想是从EI的原始定义出发,将因变量x干预为一个足够大的有界区间,即[math][-\frac{L}{2},\frac{L}{2}]^n[/math]上的均匀分布,然后再假设因果机制为一种满足高斯分布的条件概率,其均值为确定值映射[math]f(x)[/math],协方差矩阵为[math]\Sigma[/math],从而在此基础上,再度量因果变量之间的有效信息。这里的因果机制是由映射[math]f(x)[/math]和协方差矩阵共同决定的,也就是条件概率[math]Pr(y|x)[/math]来决定的。
     
786

个编辑