更改

添加2,352字节 、 2024年9月7日 (星期六)
第73行: 第73行:  
为了增强分布外泛化能力,学者们可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation)<ref>Stan S ,Rostami M . Source-free domain adaptation for semantic image segmentation using internal representations [J]. Frontiers in Big Data, 2024, 7 1359317-1359317.</ref>,使模型可以适应不同的测试数据分布。另外,学者们也提出了[[不变性学习]](Invariant Learning)<ref>L G M ,S A D ,M C S . Variability in training unlocks generalization in visual perceptual learning through invariant representations. [J]. Current biology : CB, 2023, 33 (5): 817-826.e3.</ref>、[[元学习]](Meta Learning)<ref>Zhang B ,Gao B ,Liang S , et al. A classification algorithm based on improved meta learning and transfer learning for few‐shot medical images [J]. IET Image Processing, 2023, 17 (12): 3589-3598.</ref>等方法解决该问题。
 
为了增强分布外泛化能力,学者们可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation)<ref>Stan S ,Rostami M . Source-free domain adaptation for semantic image segmentation using internal representations [J]. Frontiers in Big Data, 2024, 7 1359317-1359317.</ref>,使模型可以适应不同的测试数据分布。另外,学者们也提出了[[不变性学习]](Invariant Learning)<ref>L G M ,S A D ,M C S . Variability in training unlocks generalization in visual perceptual learning through invariant representations. [J]. Current biology : CB, 2023, 33 (5): 817-826.e3.</ref>、[[元学习]](Meta Learning)<ref>Zhang B ,Gao B ,Liang S , et al. A classification algorithm based on improved meta learning and transfer learning for few‐shot medical images [J]. IET Image Processing, 2023, 17 (12): 3589-3598.</ref>等方法解决该问题。
   −
= 机器学习识别因果涌现问题 =
+
= 问题描述 =
 
接下来,本词条将给出用机器学习方法识别因果涌现问题的形式化定义,其次,介绍NIS框架的解决思路,最后介绍NIS+解决该文提的框架。
 
接下来,本词条将给出用机器学习方法识别因果涌现问题的形式化定义,其次,介绍NIS框架的解决思路,最后介绍NIS+解决该文提的框架。
  −
== 数学问题定义 ==
      
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态。所谓的因果涌现识别问题,是指如下优化问题:
 
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态。所谓的因果涌现识别问题,是指如下优化问题:
第85行: 第83行:  
其中,<math>\epsilon</math>是给定的常数,<math>ϕ: R_p → R_q</math>是一个粗粒化策略,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;<math>ϕ^\dagger: R_q → R_p</math>为一个与[math]\phi[/math]相应的反粗粒化策略,<math>f_q</math>是一个宏观动力学学习器。<math>\mathcal{J}</math>是维度平均的[[有效信息]]<ref name=":1" />。因此,该问题就是一个带约束的泛函优化问题,其中被优化的自变量为<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>
 
其中,<math>\epsilon</math>是给定的常数,<math>ϕ: R_p → R_q</math>是一个粗粒化策略,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;<math>ϕ^\dagger: R_q → R_p</math>为一个与[math]\phi[/math]相应的反粗粒化策略,<math>f_q</math>是一个宏观动力学学习器。<math>\mathcal{J}</math>是维度平均的[[有效信息]]<ref name=":1" />。因此,该问题就是一个带约束的泛函优化问题,其中被优化的自变量为<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>
   −
== NIS的缺陷 ==
+
=NIS框架及其缺陷=
 +
 
 +
对于{{EquationRef|1}}的求解,[[NIS]]率先给出了神经网络求解的方案,如下图所示:
 +
 
 +
[[文件:NIS Graph 1.png|600px|神经信息压缩器的工作流程和框架。]]
 +
 
 +
为了数学性质和可解释性,以及降低模型参数量,NIS采用了可逆神经网络。其中编码器对应了{{EquationRef|1}}中的粗粒化策略[math]\phi[/math],它是由两步操作复合而成的,即:
 +
 
 +
①双射映射,<math> ψ: R_p → R_p    </math>,此步无信息丢失,由可逆神经网络实现。
 +
 
 +
②投影运算,<math>\chi_q  </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。
 +
 
 +
<math>y = \phi(x) = \chi_q (\psi(x)) </math>
 +
 
 +
同样地,解码器,也就是反粗粒化函数也分为两个步骤:
 +
 
 +
①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中,ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。
 +
 
 +
②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。由于使用可逆神经网络,此步和编码器中的双射映射共享参数。
 +
 
 +
<math>
 +
\phi^{\dagger}(x)=\psi_{\omega}^{-1}(x\oplus\xi)
 +
</math>
 +
 
 +
在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效的信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
 +
 
 +
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。
 +
 
 +
第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以采用随机梯度下降技术,通过训练神经网络解决。在此步,我们可以得到依赖于q的有效粗粒化策略和宏观动力学。
 +
 
 +
第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到[[有效信息]]最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。
 +
 
 +
具体请阅读词条[[NIS]]。
 +
 
 +
 
 
虽然此模型在弹簧振子、马尔科夫链、布尔网络等简单模型上得到了实验验证,但是此模型还有一些缺点和尚未改进的地方:
 
虽然此模型在弹簧振子、马尔科夫链、布尔网络等简单模型上得到了实验验证,但是此模型还有一些缺点和尚未改进的地方:
   −
1)此框架目前只能在小数据集上使用,难以拓展到更大规模的复杂系统上。
+
* 此框架目前只能在小数据集上使用,难以拓展到更大规模的复杂系统上。
   −
2)此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化[[有效信息]]。
+
* 此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化[[有效信息]]。
    
具体请阅读词条[[NIS]]。
 
具体请阅读词条[[NIS]]。
786

个编辑