第124行: |
第124行: |
| == 概述 == | | == 概述 == |
| | | |
− | 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络gθ'来学习逆宏观动力学,即使用yt+1 = ϕ (xt+1)来预测yt,从而保证互信息最大化。最后,利用概率重加权技术解决均匀分布的计算干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 | + | 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络<math>g</math>来学习逆宏观动力学,即使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证互信息最大化。最后,利用概率重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 |
| | | |
− | 形式上,由方程1定义的不等式约束下的最大化问题可转化为无约束的损失函数最小化问题,即:
| + | == 数学推导 == |
| + | |
| + | === 问题的形式化表达 === |
| + | 在[[NIS]]中的不等式约束下的最大化问题可转化为无约束的损失函数最小化问题,即: |
| | | |
| <math> | | <math> |
第132行: |
第135行: |
| </math> | | </math> |
| | | |
− | 式中,ω, θ, θ′分别为神经网络的参数,分别为ψω, fθ, gθ′。yt=ϕ(xt) = Projq(ψω(xt))和yt+1=ϕ(xt+1) = Projq(ψω(xt+1)宏观状态。λ是拉格朗日乘子,在实验中将作为超参数。ω(xt)为逆概率权值,定义为:
| + | |
| + | <math>\begin{aligned}\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right)\end{cases}\end{aligned}</math> |
| + | |
| + | |
| + | <math>y_{t}=\phi(x_{t})</math> |
| + | |
| + | |
| + | <math>y_{t+1}=\phi(x_{t+1})</math> |
| + | |
| + | |
| + | <math>\hat{y}_{t+1}=f(y_t)</math> |
| + | |
| + | 式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math> |
| + | \hat{y}_{t+1} |
| + | </math>表示<math> |
| + | y_{t} |
| + | </math>经过宏观动力学<math> f: R_q → R_q </math>得到的预测<math> |
| + | t+1 |
| + | </math>时刻宏观变量值,<math> |
| + | \hat{x}_{t+1} |
| + | </math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math> |
| + | \phi^{\dagger} |
| + | </math>得到的预测的<math> |
| + | t+1 |
| + | </math>时刻微观变量值,<math> g: R_q → R_q </math>表示反宏观动力学函数,可以根据<math> |
| + | t+1 |
| + | </math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math> |
| + | t |
| + | </math>时刻的宏观变量值<math> |
| + | \hat{y}_{t} |
| + | </math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。<math> |
| + | ω(y_t) |
| + | </math>表示的逆概率权重具有以下定义: |
| | | |
| <math> | | <math> |
第138行: |
第173行: |
| </math> | | </math> |
| | | |
− | 其中,p为do(yt ~ Uq)干预后宏观状态yt的新分布,p为数据的自然分布。在实践中,p(yt)是通过核密度估计(KDE)来估计的。我们假设近似分布p (yt)是均匀分布,其特征为一个常数。因此,权重ω被计算为这两个分布的比值。
| + | 其中,<math> |
− | == 数学推导 ==
| + | \tilde{p} |
| + | </math>为<math> |
| + | do(y_t ~U_q) |
| + | </math>干预后宏观状态<math> |
| + | y_t |
| + | </math>的新分布,<math> |
| + | p |
| + | </math>为数据的自然分布。在实际运用中,使用核密度估计(Kernel Density Estimation,简称KDE)来近似<math> |
| + | p(y_t) |
| + | </math>。假设干预后的分布<math> |
| + | \tilde{p}(y_t) |
| + | </math>是均匀分布的。因此,权重<math> |
| + | ω |
| + | </math>由原始分布与修改后的分布之比决定。 |
| | | |
− | === 问题的形式化表达 === | + | === 宏观EI的变分下界 === |
| | | |
− | === 宏观EI的变分下界 ===
| |
| | | |
| === 编码器的通用逼近定理 === | | === 编码器的通用逼近定理 === |
| + | |
| + | |
| + | |
| | | |
| | | |