更改

跳到导航 跳到搜索
添加626字节 、 2024年5月25日 (星期六)
第14行: 第14行:  
=Do形式及解释=
 
=Do形式及解释=
 
原始的有效信息是定义在离散的马尔科夫链上的。然而,为了能够更广泛地应用,在这里我们探讨有效信息的更一般的形式。
 
原始的有效信息是定义在离散的马尔科夫链上的。然而,为了能够更广泛地应用,在这里我们探讨有效信息的更一般的形式。
 +
 +
===形式定义===
    
考虑两个随机变量:[math]X[/math]和[math]Y[/math],分别代表因变量(Cause Variable)和果变量(Effect Variable),并且假定它们的取值区间分别是[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]。同时,[math]X[/math]是通过因果机制[math]f[/math]影响[math]Y[/math]的。所谓的因果机制是指在给定[math]X[/math]取值[math]x\in \mathcal{X}[/math]的情况下,[math]Y[/math]在[math]\mathcal{Y}[/math]上任意取值[math]y\in \mathcal{Y}[/math]的条件概率:
 
考虑两个随机变量:[math]X[/math]和[math]Y[/math],分别代表因变量(Cause Variable)和果变量(Effect Variable),并且假定它们的取值区间分别是[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]。同时,[math]X[/math]是通过因果机制[math]f[/math]影响[math]Y[/math]的。所谓的因果机制是指在给定[math]X[/math]取值[math]x\in \mathcal{X}[/math]的情况下,[math]Y[/math]在[math]\mathcal{Y}[/math]上任意取值[math]y\in \mathcal{Y}[/math]的条件概率:
第43行: 第45行:  
</math>
 
</math>
   −
其中,[math]\tilde{Y}[/math]则代表,在保持因果机制[math]f[/math]不变的情况下,当[math]X[/math]被干预后,被间接改变分布的[math]Y[/math]变量。
+
其中,[math]\tilde{Y}[/math]则代表:在保持因果机制[math]f[/math]不变的情况下,[math]Y[/math]变量被[math]X[/math]的do干预所间接改变的变量,这种变化主要体现在概率分布的变化上面。
 +
 
 +
因此,所谓一个因果机制[math]f[/math]的有效信息EI,就是被干预后的因变量[math]\tilde{X}[/math]和果变量[math]\tilde{Y}[/math]之间的[[互信息]]。
 +
 
 +
===为什么要使用do算子?===
 +
 
 +
不难看出,尽管EI本质上就是[[互信息]],但是与传统[[信息论]]中的[[互信息]]不同,有效信息EI在定义中包含了[[do操作]],即对输入变量做了一个[[干预]]操作。为什么要引入这一操作呢?
 +
 
 +
根据[[Judea Pearl]]的[[因果阶梯理论]],即变量之间的因果联系可以被划分为三种层次:关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。因此,阶梯层级越高,因果特征越明显。在EI的定义中引入了[math]do[/math]操作,则使得EI能够比[[互信息]]更能体现因果特征。
 +
 
 +
而从实际意义上来讲,在EI的计算中引入[[do算子]],则可以把数据和动力学分开,从而消除数据分布对EI度量所带来的影响。事实上,在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。因此,EI定义中的[[do算子]]也可以消除所有指向因变量[[math]]X[[/math]]的因果箭头,包括其它变量(包括不客观测的变量)对[[math]]X[[/math]]的影响,从而使得EI更能够刻画动力学本身的特性。
 +
 
 +
然而,值得指出的是,EI定义里面的[[do操作]]
 +
 
 +
===为什么干预成均匀分布?===
   −
因此,所谓机制[math]f[/math]的有效信息EI,就是[math]\tilde{X}[/math]和[math]\tilde{Y}[/math]的[[互信息]]
+
[[Erik Hoel]]的原始定义中,
    +
而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
   −
尽管在EI的这个定义中也包含了[[互信息]]度量,但是与传统[[信息论]]中的[[互信息]]不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性在定义中就体现为[math]do[/math]操作,这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
     −
在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
      
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是[[因果机制]]的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到[[因果机制]],这在只有观测数据的情况下造成了计算上的困难。
 
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是[[因果机制]]的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到[[因果机制]],这在只有观测数据的情况下造成了计算上的困难。
332

个编辑

导航菜单