第74行: |
第74行: |
| | | |
| {{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}} | | {{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}} |
− |
| |
− |
| |
− |
| |
− |
| |
− |
| |
− | <math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
| |
| | | |
| 为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤: | | 为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤: |
第110行: |
第104行: |
| | | |
| == 神经网络上的EI计算 == | | == 神经网络上的EI计算 == |
− | 通过此框架求的EI与容易受到微观维度p和宏观维度q的影响:
| + | 如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算: |
| + | |
| + | {{NumBlk|:|2=EI_L(\mu)=I(do(X\sim U([-L,L]^{n};Y)\approx & -\frac{m+m \ln (2\pi)+ \sum_{i=1}^m\sigma_i^2}{2}\\ |
| + | & +n\ln (2L) + \mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} \mu(X)){{!}}\right).|3={{EquationRef|2}}}} |
| + | |
| + | 式中,<math>$\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)$</math> 是协方差矩阵, <math>$\sigma_i$</math>是输出<math>$\y_i$</math>的标准差,可由<math>$\y_i$</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。 |
| + | |
| + | 但是,此公式不能直接应用于实际情况,因为它会随着输入n或输出m的维数增加而增加。解决这一问题的方法是通过除以输入维数来定义维度平均有效信息(dEI),记为: |
| + | |
| + | <math>\mathcal{J}_L = \frac{EI_L(\mu)}{n}</math> |
| + | |
| + | 当输入输出数相同时(m = n),则: |
| + | |
| + | <math>\mathcal{J}_L(\mu)=-\frac{1+\ln(2\pi)+\sum_{i=1}^n\sigma_i^2/n}{2}+\ln(2L)+\frac{1}{n}\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln |\det(\partial_{X'} f(X))|\right)</math> |
| + | |
| + | 不过,此式子依赖于参数L,输入数据的域范围。为了消除L的影响,作者计算维度平均CE。对于维度q的宏观动力学<math>f_M</math>和维度p的微观动力学<math>f_m</math>,我们将维度平均CE定义为: |
| + | |
| + | <math>\Delta\mathcal{J}_L(f_M,f_m)=\mathcal{J}_L(f_M)-\mathcal{J}_L(f_m)=\frac{EI_L(f_M)}{q}-\frac{EI_L(f_m)}{p}</math> |
| + | |
| + | 如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则: |
| | | |
− | 1)当输入数据的维度过大的时候,EI可能会发散。
| + | <math>\Delta\mathcal{J}=&\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)\\ |
| + | &-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math> |
| | | |
− | 2)EI的计算与q有关,不同维度下的q不容易直接比较大小。
| + | 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>µ_M</math>和<math>µ_m</math>在第i维上的标准差。 |
| | | |
− | 所以,作者将EI与维度q的比值定义为平均维度EI,将宏观平均维度EI与微观平均维度EI的差定义为平均维度因果涌现。这样从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
| + | 此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。 |
| | | |
| == NIS的缺陷 == | | == NIS的缺陷 == |