更改

删除324字节 、 2024年7月30日 (星期二)
第18行: 第18行:  
识别出复杂系统中的因果涌现,一方面可以节约预测成本,增强预测效果,尤其是泛化效果;一方面也可以诱导或者预防涌现的发生。在实际应用中,一些微观数据难以捕捉,我们往往只能收集到观测数据,并且,无法得到系统的真实动力学。因此,从可观测数据中识别系统中因果涌现的发生是一个关键的问题。近年来,基于神经网络的机器学习方法取得了突破性进展,借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。此外,机器学习和神经网络还可以帮助我们找到更好的粗粒化策略、从数据中发现宏观层面的因果关系。
 
识别出复杂系统中的因果涌现,一方面可以节约预测成本,增强预测效果,尤其是泛化效果;一方面也可以诱导或者预防涌现的发生。在实际应用中,一些微观数据难以捕捉,我们往往只能收集到观测数据,并且,无法得到系统的真实动力学。因此,从可观测数据中识别系统中因果涌现的发生是一个关键的问题。近年来,基于神经网络的机器学习方法取得了突破性进展,借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。此外,机器学习和神经网络还可以帮助我们找到更好的粗粒化策略、从数据中发现宏观层面的因果关系。
   −
下面介绍两种因果涌现的识别方法:①基于[[互信息]]的近似方法、②[[NIS|神经信息压缩器]]方法系列(Neural Information Squeezer,简称NIS)。
+
下面介绍两种因果涌现的识别方法:①基于信息分解的因果涌现识别近似方法、②[[NIS|神经信息压缩器]]方法系列(Neural Information Squeezer,简称NIS)。
    
=== 基于信息分解的因果涌现识别 ===
 
=== 基于信息分解的因果涌现识别 ===
   −
Rosas等学者通过信息分解来识别量化[[因果涌现]],但是信息分解框架中定义的信息原子难以计算,所以作者推导出只需要计算互信息的近似公式,提出了判定[[因果涌现]]发生的充分条件,即<math>\Psi_{t, t+1}(V) </math>,具体公式如下:
+
Rosas等学者利用机器学习框架<ref>Kaplanis Christos, Mediano Pedro, Rosas Fernando. Learning Causally Emergent Representations''. NeurIPS 2023 workshop: Information-Theoretic Principles in Cognitive Systems''</ref>,通过信息分解来识别量化[[因果涌现]],但是信息分解框架中定义的信息原子难以计算,所以作者推导出只需要计算互信息的近似公式,提出了判定[[因果涌现]]发生的充分条件,即<math>\Psi_{t, t+1}(V) </math>,具体公式如下:
    
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
第29行: 第29行:     
当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生[[因果涌现]]。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生[[因果涌现]]。
 
当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生[[因果涌现]]。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生[[因果涌现]]。
[[文件:Rosas.png|右|无框]]
  −
需要指出的是,此方法是基于格兰杰因果,Hoel的方法基于Judea Pearl因果,且此方法只是互信息的组合,没有引入do干预。
     −
该方法避开讨论粗粒化策略,但是也存在很多缺点:
+
需要指出的是,Hoel的方法基于Judea Pearl因果,而此方法是基于格兰杰因果,且只是互信息的组合,没有引入do干预。
 +
 
 +
该方法因为是格兰杰因果,所以计算比较方便,不需要找到底层的动力学机制。且对系统的动力学没有马尔可夫性的假设和要求。但是也存在一些缺点:
    
1)该方法只是基于互信息计算,且得到的仅仅是发生因果涌现的近似的充分条件;
 
1)该方法只是基于互信息计算,且得到的仅仅是发生因果涌现的近似的充分条件;
第38行: 第38行:  
2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;
 
2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;
   −
3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
+
3)高维系统中,<math>\Psi </math>作为近似条件,误差非常大,很容易得到负值,从而无法判断是否有因果涌现发生。
    
Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
 
Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
第87行: 第87行:     
该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息,保证预测误差约束足够小是为了避免平凡解(粗粒化丢失太多信息,以致宏观动力学无效)的出现。最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
 
该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息,保证预测误差约束足够小是为了避免平凡解(粗粒化丢失太多信息,以致宏观动力学无效)的出现。最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
  −
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。
  −
  −
第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以通过训练神经网络解决。
  −
  −
第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。
      
具体内容请参考[[NIS]]。
 
具体内容请参考[[NIS]]。
第100行: 第94行:  
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。
 
目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。
   −
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上,且图像中,基本可以看见狗的整个身子。经过大量数据的训练之后,如果给模型一个在草地上奔跑的狗的图像,那么模型大概95%以上会判定这是狗;如果给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型可能有一半的概率可以识别出图像中的动物是狗;如果给模型一张狗在游泳池中,只露出头的图像,那么模型大概率不能识别出来图像中的是狗。
+
以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,可以看见整个狗。经过大量数据训练后,若给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能是一半;若给模型一张在游泳池中,只露出狗头的图像,那么模型的正确率可能只有10%。
    
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,相关关系的来源可以分成三种:
 
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,相关关系的来源可以分成三种:
第158行: 第152行:     
虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。
 
虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。
 +
 
== NIS的缺陷 ==
 
== NIS的缺陷 ==
 
虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。
 
虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。
259

个编辑