更改

跳到导航 跳到搜索
删除234字节 、 2024年5月24日 (星期五)
第25行: 第25行:     
<math>
 
<math>
EI\equiv I(X:Y|do(X~U(\mathcal{X})))=I(\tilde{X}:\tilde{Y})
+
EI\equiv I(X:Y|do(X\sim U(\mathcal{X})))=I(\tilde{X}:\tilde{Y})
 
</math>
 
</math>
      −
这里,[math]do(X~U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预,使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,
+
这里,[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预,使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是[[最大熵分布]]。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,
    
<math>
 
<math>
第48行: 第48行:       −
尽管在EI的这个定义中也包含了[[互信息]]度量,但是与传统[[信息论]]中的[[互信息]]不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性与数据度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
+
尽管在EI的这个定义中也包含了[[互信息]]度量,但是与传统[[信息论]]中的[[互信息]]不同,有效信息希望刻画出马尔科夫动力学的因果特性,而这一特性在定义中就体现为[math]do[/math]操作,这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
   −
Erik Hoel意识到了这一点,在他提出的因果涌现框架中使用了EI作为一个量化指标。其中他强调EI是一种因果度量,量化的是[[因果效应]]的强弱。在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
+
在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
    
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是动力学的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到动力学机制,这在只有观测数据的情况下造成了计算上的困难。
 
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是动力学的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到动力学机制,这在只有观测数据的情况下造成了计算上的困难。
332

个编辑

导航菜单