更改

有效信息 (查看源代码)

2024年7月6日 (六) 09:31的版本

添加9字节、 2024年7月6日 (星期六)

第137行：第137行：

首先，根据上一小节的论述，[[do操作]]的实质是希望让EI能够更清晰地刻画[[因果机制]][math]f[/math]的性质，因此，需要切断因变量[math]X[/math]与其它变量的联系，并改变其分布，让EI度量与[math]X[/math]的分布无关。

−

而之所以要把输入变量干预为[[均匀分布]]，其实就是要更好地刻画[[因果机制]]~~的特性。为什么呢？~~

+

而之所以要把输入变量干预为[[均匀分布]]，其实就是要更好地刻画[[因果机制]]的特性。

−

当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候，因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]列的矩阵，我们可以展开EI的定义：

+

这是因为，当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候，因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]列的矩阵，我们可以展开EI的定义：

{{NumBlk|:|

<math>

第145行：第145行：

EI &= I(X,Y|do(X)\sim U)= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x,Y=y)\log \frac{Pr(X=x,Y=y)}{Pr(X=x)Pr(Y=y)}\\

&= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log \frac{Pr(Y=y|X=x)}{Pr(Y=y)}\\

−

&= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log Pr(Y=y|X=x)- \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)Pr(Y=y) \\

+

&= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log Pr(Y=y|X=x)- \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log Pr(Y=y) \\

−

&=\frac{1}{\#(\mathcal{X})}\left(-\sum_{x\in\mathcal{X}}H(Pr(Y|X)\right) + H(Pr(Y))

+

&=\frac{1}{\#(\mathcal{X})}\left(-\sum_{x\in\mathcal{X}}H(Pr(Y|X))\right) + H(Pr(Y))

\end{aligned}

</math>

第154行：第154行：

在第一项中，[math]X[/math]的概率分布[math]Pr(X=x)[/math]实际上起到了对每一行的熵求平均时候的权重的作用。只有当我们将该权重取为同样的数值的时候，才能够平等地对待因果机制矩阵中的每一个行，这时就恰好是将[math]X[/math]干预成均匀分布的时候。

−

如果不是均匀分布，也就意味着某些行的熵就会被乘以一个较大的权重，有的行就会被赋予一个较小的权重，这种权重代表了某种“偏见”，因此也就不能做到让EI能够反映因果机制的天然属性。

+

如果不是均匀分布，也就意味着某些行的熵就会被乘以一个较大的权重，有的行就会被赋予一个较小的权重，这种权重代表了某种“偏见”，因此也就不能做到让EI能够反映因果机制的天然属性了。

=马尔科夫链的有效信息=

Jake

786

个编辑