更改

跳到导航 跳到搜索
添加1,990字节 、 2024年10月1日 (星期二)
无编辑摘要
第49行: 第49行:  
该模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如左图所示。
 
该模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如左图所示。
   −
图中,模型输入是微观状态<math>x_t\ (x_t^1,x_t^2,…,x_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>y_t </math>,此步还包括了通过投影算子抛弃<math>p-q </math>维信息的操作。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),模型需要用<math>p-q </math>维高斯随机向量<math>N(0,1) </math>填充维度不足的数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>L_1 </math>即为预测损失评估值,可以用来训练整个网络架构。
+
图中,模型输入是微观状态<math>x_t\ (x_t^1,x_t^2,…,x_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>y_t </math>,此步还包括了通过投影算子抛弃<math>p-q </math>维信息的操作。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),模型需要用<math>p-q </math>维高斯随机向量<math>N(0,I) </math>填充维度不足的数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>L_1 </math>即为预测损失评估值,可以用来训练整个网络架构。
    
该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息,保证预测误差约束足够小是为了避免平凡解(粗粒化丢失太多信息,以致宏观动力学无效)的出现。NIS最终希望得到能够让[[有效信息]]最大的有效粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
 
该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息,保证预测误差约束足够小是为了避免平凡解(粗粒化丢失太多信息,以致宏观动力学无效)的出现。NIS最终希望得到能够让[[有效信息]]最大的有效粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
第85行: 第85行:  
[[文件:NIS Graph 1.png|600px|神经信息压缩器的工作流程和框架。]]
 
[[文件:NIS Graph 1.png|600px|神经信息压缩器的工作流程和框架。]]
   −
为了数学性质和可解释性,以及降低模型参数量,NIS采用了可逆神经网络。其中编码器对应了式{{EquationNote|1}}中的粗粒化策略[math]\phi[/math](<math>\boldsymbol{x} </math>是微观数据值,<math>\boldsymbol{y} </math>是宏观数据值)它是由两步操作复合而成的,即:
+
图中,模型输入是微观状态<math>x_t </math>,<math>ϕ </math>是粗粒化函数(编码器),得到宏观变量<math>y_t </math>。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据经过降维操作,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),模型需要用高斯随机向量<math>N(0,I) </math>填充维度不足的数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>Loss </math>即为预测损失评估值,可以用来训练整个网络架构。
 +
 
 +
为了数学性质和可解释性,以及降低模型参数量,NIS采用了[[可逆神经网络]](INN)。其中编码器对应了式{{EquationNote|1}}中的粗粒化策略[math]\phi[/math](<math>\boldsymbol{x} </math>是微观数据值,<math>\boldsymbol{y} </math>是宏观数据值)它是由两步操作复合而成的,即:
    
<math>\boldsymbol{y} = \phi(x) = \chi_q (\psi(\boldsymbol{x})) </math>
 
<math>\boldsymbol{y} = \phi(x) = \chi_q (\psi(\boldsymbol{x})) </math>
第91行: 第93行:  
这里,
 
这里,
   −
①双射映射,<math> ψ: R_p → R_p    </math>,此步无信息丢失,由可逆神经网络实现。
+
①双射映射,<math> ψ: R_p → R_p    </math>,<math> R_p    </math>表示<math> p    </math>维的数据空间,此步无信息丢失,由[[可逆神经网络]]实现。
   −
②投影运算,<math>\chi_q  </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>\boldsymbol{Y_t} </math>,此步丢失<math>p-q </math>维信息。
+
②投影运算,<math>\chi_q  </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>\boldsymbol{y} </math>,此步丢失<math>p-q </math>维信息。
      第109行: 第111行:  
②使用反粗粒化函数<math>
 
②使用反粗粒化函数<math>
 
\phi^{\dagger}
 
\phi^{\dagger}
</math>得到预测的微观变量<math>\boldsymbol{\hat{x}_{t+1}} </math>。由于使用可逆神经网络,此步和编码器中的双射映射共享参数。
+
</math>得到预测的微观变量<math>\boldsymbol{\hat{x}_{t+1}} </math>。由于使用[[可逆神经网络]],此步和编码器中的双射映射共享参数。
 +
 
      −
在编码器这一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效的信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
+
在编码器这一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的[[互信息]]倾向于接近两个相邻时间步的微观态[[互信息]],丢失的信息与预测几乎无关,所有有效的信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
    
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。
 
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。
第141行: 第144行:     
图注:在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。在NIS+中(如图(b)),作者首先使用[[互信息]]和变分不等式的公式将[[互信息]]的最大化问题转化为机器学习问题,其中,通过学习一个反向宏观动力学[math]g[/math],也就是通过<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,该框架保证了[[互信息]]的最大化。最后,该框架提出利用样本重加权技术来解决均匀分布干预的挑战,从而保证了优化的目标函数是[[有效信息]]。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref name=":12">Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。
 
图注:在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。在NIS+中(如图(b)),作者首先使用[[互信息]]和变分不等式的公式将[[互信息]]的最大化问题转化为机器学习问题,其中,通过学习一个反向宏观动力学[math]g[/math],也就是通过<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,该框架保证了[[互信息]]的最大化。最后,该框架提出利用样本重加权技术来解决均匀分布干预的挑战,从而保证了优化的目标函数是[[有效信息]]。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref name=":12">Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。
 +
 +
其中,模型输入是微观状态<math>x_t </math>。<math>ϕ </math>是粗粒化函数(编码器),得到宏观变量<math>y_t </math>。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据经过降维操作,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),数据需要拼接高斯随机向量<math>N(0,I) </math>。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>L_1 </math>即为预测损失评估值。同样,将微观状态<math>x_{t+1} </math>输入,经过粗粒化函数(编码器)<math>ϕ </math>,得到宏观变量<math>y_{t+1} </math>。<math>g </math>是反向动力学学习器。<math>\hat{y}_{t} </math>是通过[math]g[/math]预测的t时刻的宏观状态。而<math>y_{t} </math>和<math>\hat{y}_{t} </math>之间的差值<math>L_2 </math>即为反向预测损失评估值。
 +
     
237

个编辑

导航菜单