更改

跳到导航 跳到搜索
添加798字节 、 2024年5月13日 (星期一)
第11行: 第11行:     
=Do形式及解释=
 
=Do形式及解释=
相比于传统信息论,EI最大的特色在于引入最大熵分布,度量在输入变量被设定为最大熵分布后产生的影响。这实际上是对输入变量做了一个干预操作。Judea Pearl在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-干预-反事实。直接对观测数据估测互信息,便是在度量关联程度;而如果我们能对变量做干预操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
+
相比于传统信息论,EI最大的特色在于引入[[最大熵分布]],度量在输入变量被设定为[[最大熵分布]]后,输入变量与受到影响的输出变量之间的关联程度。这实际上是对输入变量做了一个[[干预]]操作。[[Judea Pearl]]在2000年左右对因果的界定有详细的阐述。他提出了因果的三层阶梯,关联-[[干预]]-[[反事实]]。直接对观测数据估测[[互信息]],便是在度量关联程度;而如果我们能对变量做[[干预]]操作,即设定变量为某个值或服从某个分布,便上升到了干预的层级;反事实则是设想如果某变量不是当前取值,那么其他变量会是什么样。阶梯层级越高,因果性就越强。
 
  −
Erik Hoel意识到了这一点,在他提出的因果涌现框架中使用了EI作为一个量化指标。其中他强调EI是一种因果度量,量化的是因果效应的强弱。而之所以要把输入变量干预为最大熵分布,其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
      +
Erik Hoel意识到了这一点,在他提出的因果涌现框架中使用了EI作为一个量化指标。其中他强调EI是一种因果度量,量化的是[[因果效应]]的强弱。在一般的因果研究当中,[[do算子]]是在消除指向某个变量所有的因果箭头,可以避免[[混杂因子]]造成的[[虚假关联]]。在EI的计算中,[[do算子]]则是把数据和动力学分开,消除了所有从数据中带来的因果箭头,从而变成对动力学本身性质的度量。而之所以要把输入变量干预为[[最大熵分布]],其实就是要去除数据分布本身带来的影响,对输入变量的分布不引入任何先验假设,平等对待输入变量的每个状态产生的影响。
    +
[[do算子]]的引入让EI这个指标与其他信息度量指标截然不同,关键在于它是且仅是动力学的函数,一方面这使得它比其他想要刻画因果的指标(比如[[转移熵]])更能抓住因果概念的本质,另一方面它需要你能够已知或获取到动力学机制,这在只有观测数据的情况下造成了计算上的困难。
 
=Markovian matrix 形式(TPM)=
 
=Markovian matrix 形式(TPM)=
 
Erik Hoel进一步将EI应用在一个随机过程的背景下,输入变量为<math>X_t</math>,输出变量为<math>X_{t+1}</math>,在将<math>X_t</math>干预为最大熵分布时,计算二者之间的互信息。在离散情况下,最大熵分布即为均匀分布。因为这里的EI计算只关乎两个时刻,在干预的情况下更早的历史变量不起作用,所以Hoel假定该过程的动力学就是一个满足马尔科夫性的概率转移矩阵。下面给出几个马尔科夫概率转移矩阵的示例。
 
Erik Hoel进一步将EI应用在一个随机过程的背景下,输入变量为<math>X_t</math>,输出变量为<math>X_{t+1}</math>,在将<math>X_t</math>干预为最大熵分布时,计算二者之间的互信息。在离散情况下,最大熵分布即为均匀分布。因为这里的EI计算只关乎两个时刻,在干预的情况下更早的历史变量不起作用,所以Hoel假定该过程的动力学就是一个满足马尔科夫性的概率转移矩阵。下面给出几个马尔科夫概率转移矩阵的示例。
第62行: 第62行:  
关键在于理解它们的物理含义。确定性指的是,已知当前时刻状态概率分布,对未来可能状态的判断有多大的把握;而简并性指的是,已知当前的状态,追溯历史,我们能有多大确定性做出判断。如果有状态在动力学过程中发生简并,我们回溯历史时能运用的信息就会变少。当一个系统背后的动力学确定性高,同时简并性低时,说明这是一个具有明显因果效应的动力学。这就是EI本身的物理含义。
 
关键在于理解它们的物理含义。确定性指的是,已知当前时刻状态概率分布,对未来可能状态的判断有多大的把握;而简并性指的是,已知当前的状态,追溯历史,我们能有多大确定性做出判断。如果有状态在动力学过程中发生简并,我们回溯历史时能运用的信息就会变少。当一个系统背后的动力学确定性高,同时简并性低时,说明这是一个具有明显因果效应的动力学。这就是EI本身的物理含义。
   −
[[文件:Example1.png|0.5px|无框|居中]]
+
[[文件:Example1.png|815x815px|无框|居中]]
    
上图展示了几种TPM,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
 
上图展示了几种TPM,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
第72行: 第72行:  
整合程度(或者叫整合信息能力)<math>\Phi</math>,可以被定义为系统一个子集两个互补部分之间可交换的有效信息最小值。假如系统是X,S是X的一个子集,它被划分为两个部分,分别是A和B。A、B之间以及它们跟X中其余的部分都存在着相互作用和因果关系。
 
整合程度(或者叫整合信息能力)<math>\Phi</math>,可以被定义为系统一个子集两个互补部分之间可交换的有效信息最小值。假如系统是X,S是X的一个子集,它被划分为两个部分,分别是A和B。A、B之间以及它们跟X中其余的部分都存在着相互作用和因果关系。
   −
[[文件:OriginalEI.png|0.01px|无框|居中|整合信息论中的划分]]
+
[[文件:OriginalEI.png|743x743px|无框|居中|整合信息论中的划分]]
    
这时,我们可以度量这些因果关系的强弱。首先,我们来计算从A到B的有效信息,即让A服从最大熵分布时,度量A和B之间的互信息。
 
这时,我们可以度量这些因果关系的强弱。首先,我们来计算从A到B的有效信息,即让A服从最大熵分布时,度量A和B之间的互信息。
207

个编辑

导航菜单