更改

有效信息 (查看源代码)

2024年5月25日 (六) 08:36的版本

添加721字节、 2024年5月25日 (星期六)

第31行：第31行： −

这里，[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]~~实施do干预，使其服从~~[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math]，也即是[[最大熵分布]]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量，其中，

+

这里，[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施[[do干预]](或称[[do操作]]），使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math]，也即是[[最大熵分布]]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量，其中，

<math>

第56行：第56行：

而从实际意义上来讲，在EI的计算中引入[[do算子]]，则可以把数据和动力学分开，从而消除数据分布对EI度量所带来的影响。事实上，在一般的因果研究当中，[[do算子]]是在消除指向某个变量所有的因果箭头，可以避免[[混杂因子]]造成的[[虚假关联]]。因此，EI定义中的[[do算子]]也可以消除所有指向因变量[[math]]X[[/math]]的因果箭头，包括其它变量（包括不客观测的变量）对[[math]]X[[/math]]的影响，从而使得EI更能够刻画动力学本身的特性。

+

[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同，关键在于它是且仅是[[因果机制]]的函数，一方面这使得它比其他想要刻画因果的指标（比如[[转移熵]]）更能抓住因果概念的本质，另一方面它需要你能够已知或获取到[[因果机制]]，这在只有观测数据的情况下造成了计算上的困难。

然而，值得指出的是，EI定义里面的[[do操作]]

第61行：第64行：

===为什么干预成均匀分布？===

−

在[[Erik Hoel]]的原始定义中，

+

在[[Erik Hoel]]的原始定义中，[[do操作]]是将因变量[[math]]X[[/math]]干预成了在其定义域[[math]]\mathcal{X}[[/math]]上的[[均匀分布]]（也就是[[最大熵分布]]）。那么，为什么要干预成[[均匀分布]]呢？其它分布是否也可以？

−

~~而之所以要把输入变量干预为~~[[~~最大熵分布~~]]~~，其实就是要去除数据分布本身带来的影响，对输入变量的分布不引入任何先验假设，平等对待输入变量的每个状态产生的影响。~~

+

首先，根据上一小节的论述，[[do操作]]的实质是希望让EI能够更清晰地刻画[[因果机制]][[math]]f[[/math]]的性质，因此，需要切断因变量[math]X[/math]与其它变量的联系，并改变其分布，让EI度量与[math]X[/math]的分布无关。

+

而之所以要把输入变量干预为[[最大熵]]下的[[均匀分布]]，其实就是要更好地刻画[[因果机制]]的特性。为什么这么说呢？

−

+

不难看出，当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候，因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]的矩阵，

−

[[~~do算子~~]]~~的引入让EI这个指标与其他信息度量指标截然不同，关键在于它是且仅是~~[[~~因果机制~~]]~~的函数，一方面这使得它比其他想要刻画因果的指标（比如~~[[~~转移熵~~]]~~）更能抓住因果概念的本质，另一方面它需要你能够已知或获取到[~~[~~因果机制]~~]~~，这在只有观测数据的情况下造成了计算上的困难。~~

=Markovian matrix 形式（TPM）=

Jake

332

个编辑

更改

有效信息 (查看源代码)

2024年5月25日 (六) 08:36的版本

导航菜单

搜索