更改

添加49字节 、 2024年8月2日 (星期五)
第73行: 第73行:  
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
 
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
   −
{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}}
+
{{NumBlk|:|2=<blockquote><nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]<\blockquote></nowiki>|3={{EquationRef|1}}}}
    
为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤:
 
为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤:
第106行: 第106行:  
如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算:
 
如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算:
   −
{{NumBlk|:|2=EI_L(\mu)=I(do(X\sim U([-L,L]^{n};Y)\approx & -\frac{m+m \ln (2\pi)+ \sum_{i=1}^m\sigma_i^2}{2}\\
+
{{NumBlk|:|2=<blockquote>EI_L(\mu)=I(do(X\sim U([-L,L]^{n};Y)\approx & -\frac{m+m \ln (2\pi)+ \sum_{i=1}^m\sigma_i^2}{2}\\
         & +n\ln (2L) + \mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} \mu(X)){{!}}\right).|3={{EquationRef|2}}}}
+
         & +n\ln (2L) + \mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} \mu(X)){{!}}\right)<\blockquote>|3={{EquationRef|2}}}}
    
式中,<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵, <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差,可由<math>$\y_i$</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。
 
式中,<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵, <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差,可由<math>$\y_i$</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。
196

个编辑