更改

跳到导航 跳到搜索
添加17字节 、 2024年10月26日 (星期六)
第136行: 第136行:  
= 强化版神经信息压缩机(NIS+)=
 
= 强化版神经信息压缩机(NIS+)=
   −
为了解决NIS的遗留问题,特别是在泛函空间上能够真正优化[[有效信息]],NIS+应运而生。
+
为了解决NIS的遗留问题,特别是在泛函空间上能够真正优化[[有效信息]],NIS+应运而生<ref name=":12">Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。
    
== 模型框架 ==
 
== 模型框架 ==
第143行: 第143行:       −
图注:在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。在NIS+中(如图(b)),作者首先使用[[互信息]]和变分不等式的公式将[[互信息]]的最大化问题转化为机器学习问题,其中,通过学习一个反向宏观动力学[math]g[/math],也就是通过<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,该框架保证了[[互信息]]的最大化。最后,该框架提出利用样本重加权技术来解决均匀分布干预的挑战,从而保证了优化的目标函数是[[有效信息]]。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref name=":12">Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。
+
图注:在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。在NIS+中(如图(b)),作者首先使用[[互信息]]和变分不等式的公式将[[互信息]]的最大化问题转化为机器学习问题,其中,通过学习一个反向宏观动力学[math]g[/math],也就是通过<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,该框架保证了[[互信息]]的最大化。最后,该框架提出利用样本重加权技术来解决均匀分布干预的挑战,从而保证了优化的目标函数是[[有效信息]]。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref name=":12"/>。
    
其中,模型输入是微观状态<math>x_t </math>。<math>ϕ </math>是粗粒化函数(编码器),得到宏观变量<math>y_t </math>。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据经过降维操作,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),数据需要拼接高斯随机向量<math>N(0,I) </math>。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>L_1 </math>即为预测损失评估值。同样,将微观状态<math>x_{t+1} </math>输入,经过粗粒化函数(编码器)<math>ϕ </math>,得到宏观变量<math>y_{t+1} </math>。<math>g </math>是反向动力学学习器。<math>\hat{y}_{t} </math>是通过[math]g[/math]预测的t时刻的宏观状态。而<math>y_{t} </math>和<math>\hat{y}_{t} </math>之间的差值<math>L_2 </math>即为反向预测损失评估值。
 
其中,模型输入是微观状态<math>x_t </math>。<math>ϕ </math>是粗粒化函数(编码器),得到宏观变量<math>y_t </math>。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据经过降维操作,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),数据需要拼接高斯随机向量<math>N(0,I) </math>。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_{t+1} </math>和<math>\hat{x}_{t+1} </math>之间的差值<math>L_1 </math>即为预测损失评估值。同样,将微观状态<math>x_{t+1} </math>输入,经过粗粒化函数(编码器)<math>ϕ </math>,得到宏观变量<math>y_{t+1} </math>。<math>g </math>是反向动力学学习器。<math>\hat{y}_{t} </math>是通过[math]g[/math]预测的t时刻的宏观状态。而<math>y_{t} </math>和<math>\hat{y}_{t} </math>之间的差值<math>L_2 </math>即为反向预测损失评估值。
786

个编辑

导航菜单