更改

跳到导航 跳到搜索
添加335字节 、 2024年8月31日 (星期六)
第341行: 第341行:  
=====NIS=====
 
=====NIS=====
   −
为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)方法<ref name="NIS" />,构建了一种编码器-动力学学习器-解码器框架,即模型由三个部分构成,分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数[math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数(即[math]\phi^{\dagger}\approx \phi^{-1}[/math])。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如下图所示:
+
为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)神经网络架构<ref name="NIS" />,该架构基于一种编码器-动力学学习器-解码器框架,即模型由三个部分构成,分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数[math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数(即[math]\phi^{\dagger}\approx \phi^{-1}[/math])。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态数据置入一个狭窄的信息通道,压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强,之后再解码成微观状态的预测。NIS方法的模型框架如下图所示:
    
[[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]]
 
[[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]]
第361行: 第361行:  
这里[math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math]为一个[math]p-q[/math]维随机向量,服从标准正态分布。
 
这里[math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math]为一个[math]p-q[/math]维随机向量,服从标准正态分布。
   −
然而,由于优化维度平均[[有效信息]]存在困难,文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}},而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度<math>q </math>的情况下最小化微观态预测误差,即<math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>并得到最优的宏观态动力学[math]f_q^\ast[/math];第二阶段为搜索超参<math>q </math>,使得有效信息[math]\mathcal{J}[/math]能够最大化,即<math>\max_{q}\mathcal{J}(f_{q}^\ast) </math>  
+
然而,如果我们直接优化维度平均的[[有效信息]]会存在着一定的困难,文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}},而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度<math>q </math>的情况下最小化微观态预测误差,即<math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>并得到最优的宏观态动力学[math]f_q^\ast[/math];第二阶段为搜索超参<math>q </math>,使得有效信息[math]\mathcal{J}[/math]能够最大化,即<math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。实践证明,这种方法可以有效地找到宏观动力学和粗粒化函数,但是并不能真正地事先EI最大化。
    
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论性质,其中有两个重要定理:
 
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论性质,其中有两个重要定理:
第373行: 第373行:  
恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。
 
恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。
   −
'''定理二''':对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)</math>,因此,综合定理一和定理二,可以得到对于一个训练好的模型:
+
'''定理二''':对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)</math>,因此,综合定理一和定理二,我们可以得到对于一个训练好的模型:
    
<math>
 
<math>
第379行: 第379行:  
</math>
 
</math>
   −
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>。[[计算力学]]中的所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T</math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。
+
=====与经典理论的比较=====
 +
 
 +
[[NIS]]框架与前面章节中提到的[[计算力学]]框架存在很多相似之处,NIS可以被视为一种<math>\epsilon</math>- machine 。[[计算力学]]中的所有历史过程构成的集合<math>\overleftarrow{S}</math>可以被看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T</math> 对应于有效的宏观动力学。最小随机性指标特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]替代。当整个框架训练充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。
    
同时[[NIS]]框架与前面提到的G-emergence理论也有相似之处,例如,[[NIS]]同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,而[[NIS]]则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
 
同时[[NIS]]框架与前面提到的G-emergence理论也有相似之处,例如,[[NIS]]同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,而[[NIS]]则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
   −
作者在[[弹簧振子模型]]中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
+
=====计算实例=====
 +
 
 +
作者在[[弹簧振子模型]]中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
    
[[文件:弹簧振子模型1.png|居左|600x600像素|替代=弹簧振子模型1|弹簧振子模型]]
 
[[文件:弹簧振子模型1.png|居左|600x600像素|替代=弹簧振子模型1|弹簧振子模型]]
642

个编辑

导航菜单