更改

跳到导航 跳到搜索
添加662字节 、 2024年8月22日 (星期四)
第296行: 第296行:  
====NIS====
 
====NIS====
   −
为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)方法<ref name="NIS" />,该构建了一种编码器-动力学学习器-解码器框架,即模型由三个部分构成分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别对应粗粒化函数[math]\phi[/math]和反粗粒化函数[math]\phi^{\dagger}[/math]。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如下图所示:
+
为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)方法<ref name="NIS" />,该构建了一种编码器-动力学学习器-解码器框架,即模型由三个部分构成分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数[math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数(即[math]\phi^{\dagger}\approx \phi^{-1}[/math])。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如下图所示:
[[文件:NIS模型框架图.png|居中|500x500像素|替代=NIS模型框架图|NIS模型框架图]]
     −
然而,由于优化维度平均[[有效信息]]存在困难,文章<ref name="NIS" />并没有直接优化{{EquationRef{1}}},往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \phi_q^{\dagger}}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\phi_q}^\ast) </math> 。
+
[[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]]
   −
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论性质,其中有两个重要定理,定理一:神经信息挤压器的[[信息瓶颈]],即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
+
具体的,编码器函数[math]\phi[/math]由两部分构成:
   −
该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的[[高斯分布]]<math>p\left(Y| X\right) </math>,可以定义新的有效信息计算公式,公式见[[有效信息]]词条的[[前馈神经网络]]部分。
+
<math>
 +
\phi\equiv \xi\circ\psi
 +
</math>
   −
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]
+
其中[math]\psi[/math]为一个可逆函数,由一个[[可逆神经网络]]来实现,[math]\xi[/math]为[[投影函数]],即去除[math]p[/math]维向量中的后[math]p-q[/math]个维度分量,这里[math]p,q[/math]分别为微观态和宏观态的维度。[math]\circ[/math]为函数的合成操作。
   −
同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
+
解码器为函数[math]\phi^{\dagger}[math],它定义为:
 +
 
 +
<math>
 +
\phi^{\dagger}(y)\equiv \psi^{-1}(y\bigoplus z)
 +
</math>
 +
 
 +
这里[math]z\sim\mathca{Ν}\left (0,I_{p-q}\right )[/math]为一个[math]p-q[/math]维随机向量,服从标准正态分布。
 +
 
 +
 
 +
然而,由于优化维度平均[[有效信息]]存在困难,文章<ref name="NIS" />并没有直接优化{{EquationRef{1}}},而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度<math>q </math>的情况下最小化微观态预测误差,即<math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>并得到最优的宏观态动力学[math]f_q^\ast[/math];第二阶段为搜索超参<math>q </math>,使得有效信息[math]\mathcal{J}[/math]能够最大化,即<math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。
 +
 
 +
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论性质,其中有两个重要定理:
 +
 
 +
'''定理一''':神经信息挤压器的[[信息瓶颈]],即对于任意的双射<math>\mathrm{\Psi} </math>、投影<math>\chi </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\sim\mathca{Ν}\left (0,I_{p-q}\right ) </math>,
 +
 
 +
<math>
 +
I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right)
 +
</math>
 +
 
 +
恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。
 +
 
 +
'''定理二''':对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)</math>,因此,综合定理一和定理二,可以得到对于一个训练好的模型:
 +
 
 +
<math>
 +
I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)
 +
</math>
 +
 
 +
 
 +
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>。[[计算力学]]中的所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T</math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。
 +
 
 +
同时[[NIS]]框架与前面提到的G-emergence理论也有相似之处,例如,[[NIS]]同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,而[[NIS]]则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
    
作者在[[弹簧振子模型]]中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
 
作者在[[弹簧振子模型]]中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
642

个编辑

导航菜单