更改

跳到导航 跳到搜索
添加982字节 、 2024年5月26日 (星期日)
第148行: 第148行:  
针对上面所列的三个[[状态转移矩阵]],我们可以分别求出它们的EI为:2比特、1比特和0比特。由此可见,如果[[转移概率矩阵]]中出现更多的0或1,也就是行向量多是[[独热向量]](也叫做[[one-hot向量]],即某一个位置为1,其它位置为0的向量),则EI值就会更大。也就是说,如果在状态转移的过程中,从某一时刻到下一时刻的跳转越确定,则EI值就会倾向于越高。但是,这个观察并不十分精确,更精确的结论由后面的小节给出。
 
针对上面所列的三个[[状态转移矩阵]],我们可以分别求出它们的EI为:2比特、1比特和0比特。由此可见,如果[[转移概率矩阵]]中出现更多的0或1,也就是行向量多是[[独热向量]](也叫做[[one-hot向量]],即某一个位置为1,其它位置为0的向量),则EI值就会更大。也就是说,如果在状态转移的过程中,从某一时刻到下一时刻的跳转越确定,则EI值就会倾向于越高。但是,这个观察并不十分精确,更精确的结论由后面的小节给出。
   −
=归一化=
+
==归一化==
显然,EI的大小和状态空间大小有关,我们需要做一个归一化,得到和系统尺寸无关的一个量化指标。根据Tononi等人的工作,要用最大熵分布下的熵值来做分母,那么在马尔科夫转移矩阵的背景下,该值便等于<math>\log_2N</math>。进一步定义归一化指标有效性(effectiveness)为<math>eff=\frac{EI}{\log_2N}</math>。
+
显然,EI的大小和状态空间大小有关,这一性质在我们比较不同尺度的[[马尔科夫链]]的时候非常不方便,我们需要一个尽可能不收尺度效应影响的[[因果效应度量]]。因此,我们需要对有效信息EI做一个归一化处理,得到和系统尺寸无关的一个量化指标。
   −
后来,在神经信息压缩器(Neural information squeezer, NIS)提出时,构建了直接对状态空间维度求平均的指标dEI。<math>dEI=\frac{EI}{N}</math>,这同样可以消除系统大小带来的影响。在离散的系统中,dEI和有效性实际上是等价的。
+
根据[[Erik Hoel]]和[[Tononi]]等人的工作,要用[[均匀分布]]即[[最大熵分布]]下的熵值,即<math>\log N</math>来做分母对EI进行归一化,这里的[math]N[/math]为状态空间[math]\mathcal{X}[/math]中的状态的数量。那么归一化后的EI便等于:
 
  −
=因果涌现(CE)=
  −
有了有效信息这一度量指标后,因果涌现的框架可以被呈现出来了。对于一个系统,观察者可以建立多尺度视角去观测,区分出微观和宏观。收集到的微观数据可以直接反映微观动力学,在经过粗粒化映射(coarse-graining)后,由微观变量得到对应的宏观变量,也自然会有相应的宏观动力学。对两个动力学分别可以计算EI,如果宏观EI大于微观EI,认为有因果涌现发生。
  −
[[文件:CE.png|缩略图]]
  −
这里有一个新的指标直接度量因果涌现的程度:
      
<math>
 
<math>
CE = EI(TPM_M) - EI(TPM_m)
+
Eff=\frac{EI}{\log N}
 
</math>
 
</math>
   −
也可以计算归一化后的CE:
+
进一步定义归一化指标也称为'''有效性'''(effectiveness)。
 +
 
 +
然而,在处理连续状态变量的时候,这种使用状态空间中状态数量的对数值进行归一化的处理方式并不是非常合适,因为这一状态数往往收到变量的维度和实数分辨率的影响。
 +
 
 +
后来,在[[神经信息压缩器]](Neural information squeezer, NIS)的框架被提出时,作者们发明了另一种有效信息的归一化方式,即用连续马尔科夫动力系统的状态空间维数来归一化EI,从而解决连续状态变量上的EI比较问题,这一指标被称为'''维度求平均的有效信息'''(Dimension Averaged Effective Information,简称dEI)。其描述为:
    
<math>
 
<math>
dCE(TPM_M,TPM_m) = \frac{EI(TPM_M)}{n_M} - \frac{EI(TPM_m)}{n_m}
+
\mathcal{J}=\frac{EI}{D}
 
</math>
 
</math>
=确定性和简并性=
+
 
 +
这里,[math]D[/math]为状态空间的维度。可以证明,在离散的状态空间中,'''维度平均的EI'''和'''有效性'''指标实际上是等价的。关于连续变量上的EI,我们将在下文进一步详述。
 +
 
 +
==确定性和简并性==
 
考察归一化后的eff,我们可以将其拆成两部分,分别对应确定性(determinism)和简并性(degeneracy)。
 
考察归一化后的eff,我们可以将其拆成两部分,分别对应确定性(determinism)和简并性(degeneracy)。
   第187行: 第189行:  
上图展示了几种TPM,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
 
上图展示了几种TPM,其中(a)是确定性高,简并性低,所以整体eff比较高。(b)则是确定性和简并性都比较高,所以eff是0。(c)相比于(a)确定性更低,(d)也是确定性和简并性都较高导致eff较低,它们都可以通过同一种粗粒化策略(将前4个状态合并为一个状态)来得到(e)。此时(e)确定性很高,无简并性,所以(e)的eff比(c)(d)要高。
    +
=因果涌现(CE)=
 +
有了有效信息这一度量指标后,因果涌现的框架可以被呈现出来了。对于一个系统,观察者可以建立多尺度视角去观测,区分出微观和宏观。收集到的微观数据可以直接反映微观动力学,在经过粗粒化映射(coarse-graining)后,由微观变量得到对应的宏观变量,也自然会有相应的宏观动力学。对两个动力学分别可以计算EI,如果宏观EI大于微观EI,认为有因果涌现发生。
 +
[[文件:CE.png|缩略图]]
 +
这里有一个新的指标直接度量因果涌现的程度:
 +
 +
<math>
 +
CE = EI(TPM_M) - EI(TPM_m)
 +
</math>
 +
 +
也可以计算归一化后的CE:
 +
 +
<math>
 +
dCE(TPM_M,TPM_m) = \frac{EI(TPM_M)}{n_M} - \frac{EI(TPM_m)}{n_m}
 +
</math>
 
=连续系统的EI=
 
=连续系统的EI=
 
现实中大部分系统都要在连续空间上考虑,所以很有必要将EI的概念拓展到连续系统上。最初Erik Hoel考虑到了这一点,提出了[[因果几何]],旨在对形如<math>y=f(x)+\varepsilon, \varepsilon\sim\mathcal{N}(0,\epsilon^2)</math>的动力学能够度量有效信息的大小。然而连续变量的信息度量和离散上的信息指标性质很不相同,经过数学推导,我们发现连续变量的有效信息依赖于观测噪音以及干预噪音。其数学形式如下所示。
 
现实中大部分系统都要在连续空间上考虑,所以很有必要将EI的概念拓展到连续系统上。最初Erik Hoel考虑到了这一点,提出了[[因果几何]],旨在对形如<math>y=f(x)+\varepsilon, \varepsilon\sim\mathcal{N}(0,\epsilon^2)</math>的动力学能够度量有效信息的大小。然而连续变量的信息度量和离散上的信息指标性质很不相同,经过数学推导,我们发现连续变量的有效信息依赖于观测噪音以及干预噪音。其数学形式如下所示。
332

个编辑

导航菜单