第78行: |
第78行: |
| == 数学问题定义 == | | == 数学问题定义 == |
| | | |
− | 假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的[[有效信息]](<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为: | + | 假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态。所谓的因果涌现识别问题,是指如下优化问题: |
| + | |
| | | |
| {{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}} | | {{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}} |
| | | |
− | 为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤:
| + | 其中,<math>\epsilon</math>是给定的常数,<math>ϕ: R_p → R_q</math>是一个粗粒化策略,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;<math>ϕ^\dagger: R_q → R_p</math>为一个与[math]\phi[/math]相应的反粗粒化策略,<math>f_q</math>是一个宏观动力学学习器。<math>\mathcal{J}</math>是维度平均的[[有效信息]]<ref name=":1" />。因此,该问题就是一个带约束的泛函优化问题,其中被优化的自变量为<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math> |
− | | |
− | ①双射映射,<math> ψ: R_p → R_p </math>,此步无信息丢失,由可逆神经网络实现。
| |
− | | |
− | ②投影运算,<math>\chi_q </math>,此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。
| |
− | | |
− | <math>y = \phi(x) = \chi_q (\psi(x)) </math>
| |
− | | |
− | 解码器也分为两个步骤:
| |
− | | |
− | ①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中,ξ为p−q维的标准高斯随机向量,⊕表示向量拼接操作。
| |
− | | |
− | ②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。由于使用可逆神经网络,此步和编码器中的双射映射共享参数。
| |
− | | |
− | <math> | |
− | \phi^{\dagger}(x)=\psi_{\omega}^{-1}(x\oplus\xi) | |
− | </math> | |
− | | |
− | 在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有[[有效信息]]都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
| |
− | | |
− | 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。
| |
− | | |
− | 第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以采用随机梯度下降技术,通过训练神经网络解决。在此步,我们可以得到依赖于q的有效粗粒化策略和宏观动力学。
| |
− | | |
− | 第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到[[有效信息]]最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。
| |
− | | |
− | 具体请阅读词条[[NIS]]。
| |
| | | |
| == NIS的缺陷 == | | == NIS的缺陷 == |