更改

跳到导航 跳到搜索
大小无更改 、 2024年7月6日 (星期六)
第200行: 第200行:  
具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示:
 
具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示:
   −
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
+
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
   −
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。
+
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \phi_q^{\dagger}}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\phi_q}^\ast) </math> 。
    
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
 
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
1,912

个编辑

导航菜单