更改

跳到导航 跳到搜索
大小无更改 、 2024年7月6日 (星期六)
第202行: 第202行:  
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
 
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
   −
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。
+
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。
    
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
 
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
1,921

个编辑

导航菜单