更改

删除1,358字节 、 2024年7月30日 (星期二)
第112行: 第112行:  
= 神经信息压缩机(NIS)介绍 =
 
= 神经信息压缩机(NIS)介绍 =
   −
其中粗粒度函数<math>ϕ</math>和反粗粒度函数<math>ϕ^\dagger</math>分别称为编码器和解码器,宏观动力学函数fq称为动态学习器。其次考虑到<math>ϕ</math>和<math>ϕ^\dagger</math>之间的对称位置,使用采用RealNVP框架的可逆神经网络来降低模型复杂性,并使数学分析成为可能。具体如下:
+
== 概述 ==
   −
<math>ϕ≡ Proj_q(\psi_\omega) </math>    
+
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。NIS使用神经网络对方程中所有需要优化的函数进行参数化。它们的关系用方程表示为:
   −
式中,ψω: Rp→Rp是一个参数为ω的可逆神经网络,Projq表示保留前q维以形成宏观状态y的投影运算,去掉后P−q维变量y'。根据经验,y'可以近似地视为高斯噪声并与y独立,或者我们可以通过训练神经网络强制y'成为独立的高斯噪声。同样,在对称情况下,<math>ϕ^\dagger</math>可以近似为:对于任意输入y∈Rq,
+
<math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
   −
<math>
+
为了降低编码器<math>ϕ</math>和解码器<math>ϕ^\dagger</math>的复杂程度,作者将编码过程分解为两个步骤:
\phi^{\dagger}(y)=\psi_{\omega}^{-1}(y\oplus\xi)
  −
</math>
     −
其中ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。
+
①双射映射,<math> ψ: R_p → R_p    </math>,此步无信息丢失,由可逆神经网络实现。
   −
最后,用一种具有权参数的前馈神经网络fq对宏观动力学fθ进行参数化。它的输入和输出层神经元的数量等于宏观状态q的维数。它有两个隐藏层,每层有64个神经元,输出使用LeakyReLU进行转换。为了计算EI,我们将这个前馈神经网络看作一个高斯分布,它对条件概率p(yt+1|yt)进行建模。当神经网络收敛时,yt与yt+1之间的互信息近似于xt与xt+1之间的互信息,因此需要方程中的约束。
+
②投影运算,<math>chi_q  </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。
    +
<math>psi(x) = chi_q (phi(x)) </math>
    +
解码器也分为两个步骤:
   −
具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math><math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。
+
①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中,ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。
   −
具体计算公式如下所示:
+
②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>
<math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q})</math>
     −
<math>\text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
+
<math>
 
+
\phi^{\dagger}(x)=\psi_{\omega}^{-1}(x\oplus\xi)
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
+
</math>
 
  −
== 概述 ==
  −
 
  −
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略 <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, 是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学<math>f_q</math> ,使得<math>f_q</math>的有效信息(EI)值在<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测的<math>x_{t+1}</math>接近于<math>x_{t+1}</math>的实际数据的约束下最大化。<math>\epsilon</math>是给定的常数。NIS使用神经网络对方程中所有需要优化的函数进行参数化。它们的关系用方程表示为:
  −
 
  −
<math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
      
在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
 
在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
259

个编辑