更改

跳到导航 跳到搜索
添加721字节 、 2024年5月25日 (星期六)
第31行: 第31行:       −
这里,[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预,使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是[[最大熵分布]]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,
+
这里,[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施[[do干预]](或称[[do操作]]),使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是[[最大熵分布]]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,
    
<math>
 
<math>
第56行: 第56行:     
而从实际意义上来讲,在EI的计算中引入[[do算子]],则可以把数据和动力学分开,从而消除数据分布对EI度量所带来的影响。事实上,在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。因此,EI定义中的[[do算子]]也可以消除所有指向因变量[[math]]X[[/math]]的因果箭头,包括其它变量(包括不客观测的变量)对[[math]]X[[/math]]的影响,从而使得EI更能够刻画动力学本身的特性。
 
而从实际意义上来讲,在EI的计算中引入[[do算子]],则可以把数据和动力学分开,从而消除数据分布对EI度量所带来的影响。事实上,在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。因此,EI定义中的[[do算子]]也可以消除所有指向因变量[[math]]X[[/math]]的因果箭头,包括其它变量(包括不客观测的变量)对[[math]]X[[/math]]的影响,从而使得EI更能够刻画动力学本身的特性。
 +
 +
 +
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是[[因果机制]]的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到[[因果机制]],这在只有观测数据的情况下造成了计算上的困难。
    
然而,值得指出的是,EI定义里面的[[do操作]]
 
然而,值得指出的是,EI定义里面的[[do操作]]
第61行: 第64行:  
===为什么干预成均匀分布?===
 
===为什么干预成均匀分布?===
   −
在[[Erik Hoel]]的原始定义中,
+
在[[Erik Hoel]]的原始定义中,[[do操作]]是将因变量[[math]]X[[/math]]干预成了在其定义域[[math]]\mathcal{X}[[/math]]上的[[均匀分布]](也就是[[最大熵分布]])。那么, 为什么要干预成[[均匀分布]]呢?其它分布是否也可以?
   −
而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
+
首先,根据上一小节的论述,[[do操作]]的实质是希望让EI能够更清晰地刻画[[因果机制]][[math]]f[[/math]]的性质,因此,需要切断因变量[math]X[/math]与其它变量的联系,并改变其分布,让EI度量与[math]X[/math]的分布无关。
    +
而之所以要把输入变量干预为[[最大熵]]下的[[均匀分布]],其实就是要更好地刻画[[因果机制]]的特性。为什么这么说呢?
   −
 
+
不难看出,当[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]都是有限可数集合的时候,因果机制[math]f\equiv Pr(Y=y|X=x)[/math]就成为了一个[math]\#(\mathcal{X})[/math]行[math]\#(\mathcal{Y})[/math]的矩阵,
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是[[因果机制]]的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到[[因果机制]],这在只有观测数据的情况下造成了计算上的困难。
      
=Markovian matrix 形式(TPM)=
 
=Markovian matrix 形式(TPM)=
332

个编辑

导航菜单