第90行: |
第90行: |
| | | |
| 为了数学性质和可解释性,以及降低模型参数量,NIS采用了可逆神经网络。其中编码器对应了{{EquationRef|1}}中的粗粒化策略[math]\phi[/math],它是由两步操作复合而成的,即: | | 为了数学性质和可解释性,以及降低模型参数量,NIS采用了可逆神经网络。其中编码器对应了{{EquationRef|1}}中的粗粒化策略[math]\phi[/math],它是由两步操作复合而成的,即: |
| + | |
| + | <math>y = \phi(x) = \chi_q (\psi(x)) </math> |
| + | |
| + | 这里, |
| | | |
| ①双射映射,<math> ψ: R_p → R_p </math>,此步无信息丢失,由可逆神经网络实现。 | | ①双射映射,<math> ψ: R_p → R_p </math>,此步无信息丢失,由可逆神经网络实现。 |
第95行: |
第99行: |
| ②投影运算,<math>\chi_q </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。 | | ②投影运算,<math>\chi_q </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。 |
| | | |
− | <math>y = \phi(x) = \chi_q (\psi(x)) </math>
| + | |
| | | |
| 同样地,解码器,也就是反粗粒化函数也分为两个步骤: | | 同样地,解码器,也就是反粗粒化函数也分为两个步骤: |
| + | |
| + | <math> |
| + | \phi^{\dagger}(x)=\psi_{\omega}^{-1}(x\oplus\xi) |
| + | </math> |
| + | |
| + | 这里, |
| | | |
| ①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中,ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。 | | ①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中,ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。 |
第103行: |
第113行: |
| ②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。由于使用可逆神经网络,此步和编码器中的双射映射共享参数。 | | ②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。由于使用可逆神经网络,此步和编码器中的双射映射共享参数。 |
| | | |
− | <math>
| |
− | \phi^{\dagger}(x)=\psi_{\omega}^{-1}(x\oplus\xi)
| |
− | </math>
| |
| | | |
− | 在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效的信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
| + | 在编码器这一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效的信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。 |
| | | |
| 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。 | | 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。 |