第98行: |
第98行: |
| = 神经信息压缩机(NIS)介绍 = | | = 神经信息压缩机(NIS)介绍 = |
| | | |
− | 假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略 <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, 是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学<math>f_q</math> ,使得<math>f_q</math>的有效信息(EI)值在<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测的<math>x_{t+1}</math>接近于<math>x_{t+1}</math>的实际数据的约束下最大化。它们的关系用方程1表示为:
| + | 其中粗粒度函数<math>ϕ</math>和反粗粒度函数<math>ϕ^\dagger</math>分别称为编码器和解码器,宏观动力学函数fq称为动态学习器。其次考虑到<math>ϕ</math>和<math>ϕ^\dagger</math>之间的对称位置,使用采用RealNVP框架的可逆神经网络来降低模型复杂性,并使数学分析成为可能。具体如下: |
− | | |
− | <math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
| |
− | | |
− | NIS使用神经网络对方程1中所有需要优化的函数进行参数化,其中粗粒度函数<math>ϕ</math>和反粗粒度函数<math>ϕ^\dagger</math>分别称为编码器和解码器,宏观动力学函数fq称为动态学习器。其次考虑到<math>ϕ</math>和<math>ϕ^\dagger</math>之间的对称位置,使用采用RealNVP框架的可逆神经网络来降低模型复杂性,并使数学分析成为可能。具体如下:
| |
| | | |
| <math>ϕ≡ Proj_q(\psi_\omega) </math> | | <math>ϕ≡ Proj_q(\psi_\omega) </math> |
第128行: |
第124行: |
| == 概述 == | | == 概述 == |
| | | |
| + | 假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略 <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, 是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学<math>f_q</math> ,使得<math>f_q</math>的有效信息(EI)值在<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测的<math>x_{t+1}</math>接近于<math>x_{t+1}</math>的实际数据的约束下最大化。<math>\epsilon</math>是给定的常数。NIS使用神经网络对方程中所有需要优化的函数进行参数化。它们的关系用方程表示为: |
| | | |
| + | <math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math> |
| + | |
| + | 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。 |
| + | |
| + | 第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以通过训练神经网络解决。 |
| + | |
| + | 第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。 |
| == NIS的缺陷 == | | == NIS的缺陷 == |
− | 泛函...
| + | 虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。 |
| | | |
| | | |
| = 强化版神经信息压缩机(NIS+)= | | = 强化版神经信息压缩机(NIS+)= |
| + | |
| + | == 概述 == |
| | | |
| 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络gθ'来学习逆宏观动力学,即使用yt+1 = ϕ (xt+1)来预测yt,从而保证互信息最大化。最后,利用概率重加权技术解决均匀分布的计算干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 | | 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络gθ'来学习逆宏观动力学,即使用yt+1 = ϕ (xt+1)来预测yt,从而保证互信息最大化。最后,利用概率重加权技术解决均匀分布的计算干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 |
第150行: |
第156行: |
| | | |
| 其中,p为do(yt ~ Uq)干预后宏观状态yt的新分布,p为数据的自然分布。在实践中,p(yt)是通过核密度估计(KDE)来估计的。我们假设近似分布p (yt)是均匀分布,其特征为一个常数。因此,权重ω被计算为这两个分布的比值。 | | 其中,p为do(yt ~ Uq)干预后宏观状态yt的新分布,p为数据的自然分布。在实践中,p(yt)是通过核密度估计(KDE)来估计的。我们假设近似分布p (yt)是均匀分布,其特征为一个常数。因此,权重ω被计算为这两个分布的比值。 |
− |
| |
− | == 概述 ==
| |
− |
| |
− |
| |
| == 数学推导 == | | == 数学推导 == |
| | | |