更改

有效信息 (查看源代码)

2024年7月4日 (四) 08:05的版本

删除6字节、 2024年7月4日 (星期四)

第25行：第25行：

</math>

−

这里，X是因变量，Y是果变量，[math]do(X\sim U)[/math]表示对因变量X进行[[do干预]]，将X的分布变为均匀分布，P代表X到Y的因果机制，它是一个概率转移矩阵，即[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]。在这一干预下，同时假设X到Y的因果机制P保持不变，那么，Y就会间接地受到X的do干预的影响而发生变化。则EI度量的是经过干预后的X和Y之间的互信息。

+

这里，P代表X到Y的因果机制，它是一个概率转移矩阵，即[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]；X是因变量，Y是果变量，[math]do(X\sim U)[/math]表示对因变量X进行[[do干预]]，将X的分布变为均匀分布。在这一干预下，同时假设X到Y的因果机制P保持不变，那么，Y就会间接地受到X的do干预的影响而发生变化。则EI度量的是经过干预后的X和Y之间的互信息。

之所以引入do操作，目的是为了消除数据X的分布对EI的影响，以使得最后的EI度量仅仅是因果机制f的函数，而与数据X无关。

第70行：第70行：

{{NumBlk|:||{{EquationRef|example}}}}

−

我们可以看到，第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高，这是因为这一概率转移是一个完全确定性的转移，也就是从某一个状态出发，它会以100%~~的概率转移到另一个状态。然而，并不是所有的确定性转移的矩阵都会对应较大的EI，比如~~[math]P_3[/math]这个矩阵，虽然它的转移概率也都是100%，但是因为所有后面三种状态都会转移到第1个状态，因此我们将无法区分它上一时刻是处于何种状态的。因此这种情况下它的EI也会比较低。我们称后一种情况存在着简并性。因此，如果一个转移矩阵具有较高的确定性和较低的简并性，则它的EI就会很高。进一步，存在如下对EI的分解：

+

我们可以看到，第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高，这是因为这一概率转移是一个完全确定性的转移，也就是从某一个状态出发，它会以100%的概率转移到另外某一个状态。然而，并不是所有的确定性转移的矩阵都会对应较大的EI，比如[math]P_3[/math]这个矩阵，虽然它的转移概率也都是100%或0，但是因为所有后面三种状态都会转移到第1个状态，因此我们将无法区分它上一时刻是处于何种状态的。这种情况下它的EI也会比较低，我们称这种情况存在着'''简并性'''。于是，如果一个转移矩阵具有较高的确定性和较低的简并性，则它的EI就会很高。进一步，存在如下对EI的分解：

<math>

第78行：第78行：

这里，Det是对确定性（Determinism）的缩写，而Deg是对简并性（Degeneracy）的缩写，EI是二者之差。在上面的表格中，我们将矩阵所对应的Det和Deg数值也都列在了下面。

−

第一个转移概率矩阵是一个[[~~置换排列矩阵~~]]（Permutation），它是可逆的，因此确定性最高，没有简并性，因而EI最大；第二个矩阵的前三个状态都会以1/3的概率跳转到彼此，因此确定性程度最低，而简并性也很低，EI是0.81；第三个矩阵虽然也是确定性的矩阵，因而确定性最高，但是由于后三个状态都跳转到1，因此，从1状态不能推知它来自于哪个状态，因此简并性最高，最终的EI与第二个相同，仍然是0.81。

+

第一个转移概率矩阵是一个[[排列矩阵]]（Permutation），它是可逆的，因此确定性最高，没有简并性，因而EI最大；第二个矩阵的前三个状态都会以1/3的概率跳转到彼此，因此确定性程度最低，而简并性也很低，EI是0.81；第三个矩阵虽然也是非0即1的转移概率，因而确定性最高，但是由于后三个状态都跳转到1，因此，从1状态不能推知它来自于哪个状态，因此简并性最高，最终的EI与第二个相同，仍然是0.81。

−

尽管在原始文献中<ref name=hoel_2013 />，有效信息大多应用于离散状态的马尔科夫链，但是，[[张江]]、[[刘凯威]]、[[杨明哲]]等人将EI的定义扩展到了更一般的连续变量的情形<ref name=zhang_nis /><ref name=yang_nis+ /><ref name=liu_exact />。这一扩充的基本思想是从EI的原始定义出发，将因变量x干预为一个足够大的有界区间，即[math][-\frac{L}{2},\frac{L}{2}]^n[/math]~~上的均匀分布，然后再假设因果机制为一种满足高斯分布形式的条件概率分布，其均值为确定值映射~~[math]f(x)[/math]，协方差矩阵为[math]\Sigma[/math]，从而在此基础上，再度量因果变量之间的有效信息。这里的因果机制是由映射[math]f(x)[/math]和协方差矩阵共同决定的，也就是条件概率[math]Pr(y|x)[/math]来决定的。

+

尽管在原始文献中<ref name=hoel_2013 />，有效信息大多应用于离散状态的马尔科夫链，但是，[[张江]]、[[刘凯威]]、[[杨明哲]]等人将EI的定义扩展到了更一般的连续变量的情形<ref name=zhang_nis /><ref name=yang_nis+ /><ref name=liu_exact />。这一扩充的基本思想是从EI的原始定义出发，将因变量x干预为一个足够大的有界区间，即[math][-\frac{L}{2},\frac{L}{2}]^n[/math]上的均匀分布，然后再假设因果机制为一种满足高斯分布的条件概率，其均值为确定值映射[math]f(x)[/math]，协方差矩阵为[math]\Sigma[/math]，从而在此基础上，再度量因果变量之间的有效信息。这里的因果机制是由映射[math]f(x)[/math]和协方差矩阵共同决定的，也就是条件概率[math]Pr(y|x)[/math]来决定的。

Jake

786

个编辑

更改

有效信息 (查看源代码)

2024年7月4日 (四) 08:05的版本

导航菜单

搜索