更改

跳到导航 跳到搜索
添加526字节 、 2024年5月25日 (星期六)
第69行: 第69行:     
而之所以要把输入变量干预为[[最大熵]]下的[[均匀分布]],其实就是要更好地刻画[[因果机制]]的特性。为什么这么说呢?
 
而之所以要把输入变量干预为[[最大熵]]下的[[均匀分布]],其实就是要更好地刻画[[因果机制]]的特性。为什么这么说呢?
 +
 +
当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候,因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]的矩阵,我们可以展开EI的定义:
    
<math>
 
<math>
EI = I(X,Y|do(X)\sim U)= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y})\log \frac{p(x,y)}{p(x)p(y)}\\
+
EI = I(X,Y|do(X)\sim U)= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x,Y=y)\log \frac{Pr(X=x,Y=y)}{Pr(X=x)Pr(Y=y)}\\
 +
 
 +
= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log \frac{Pr(Y=y|X=x)}{Pr(Y=y)}\\
 +
 
 +
= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)\log Pr(Y=y|X=x) + \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)}\\
    +
=\frac{1}{\#(\mathcal{X})} (-H(Pr(Y|X)) + H(Pr(Y))
 
</math>
 
</math>
   −
不难看出,当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候,因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]的矩阵,
+
不难看出,最后得到的等式告诉我们,EI实际上由两项构成,第一项是因果机制矩阵每一行的负熵的平均值,第二项则是变量[math]Y[/math]的熵
    
=Markovian matrix 形式(TPM)=
 
=Markovian matrix 形式(TPM)=
332

个编辑

导航菜单