更改

NIS+ (查看源代码)

2024年8月6日 (二) 14:26的版本

添加6,622字节、 2024年8月6日 (星期二)

无编辑摘要

第145行：第145行：

== 概述 ==

[[文件:NIS+odd.png|替代=|右|无框|660x660像素|1]]

−

为了最大化方程1中定义的EI，我们将NIS的框架扩展为NIS+。在NIS+中，我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题，其次，使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>，从而保证互信息最大化。最后，利用样本重加权技术来解决均匀分布干预的挑战，从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。

+

为了最大化方程1中定义的EI，我们将NIS的框架扩展为NIS+。在NIS+中，我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题，其次，使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>，从而保证互信息最大化。最后，利用样本重加权技术来解决均匀分布干预的挑战，从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。在此框架中，输入可观测的数据，输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略。

== 数学推导 ==

第158行：第158行：

=== 宏观EI的变分下界 ===

−

~~首先，先给出三个引理和一个假设。~~

+

原始的有约束的目标优化公式如式{{EquationNote|1}}所示。

+

在此方程中<math>\hat{X}_{t+1}=\psi_{\omega}^{-1}(\hat{Y}_{t+1}\bigoplus \xi)</math>，其中<math>\psi_{\omega}^{-1}</math>是可逆映射，根据引理1和引理2以及互信息的性质，我们可以得到：

+

+

令<math>U_q</math>为宏观变量的均匀分布，那么<math>H(\Tilde{Y}_t)=H(U_q)</math>。故：

+

<math>\mathcal{J}(f_{\theta,q})=I(\Tilde{Y}_{t},\hat{X}_{t+1})=H(U_q)-H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math>

+

由于<math>H(U_q)</math>为常数，所以<math>\mathcal{J}(f_{q})</math>的优化可以转化为条件熵<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math>的最小化优化问题。根据引理3可以得知：

+

<math> H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le -\iint \Tilde{p}(\boldsymbol{y}_t, \boldsymbol{x}_{t+1})\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} = -\iint \Tilde{p}(\boldsymbol{y}_{t})\Tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math>

+

式中，<math>\Tilde{p}</math>表示随机变量<math>Y_t</math>被干预情况下的概率分布函数。

+

作者使用神经网络来拟合分布<math>g(y_t|x_t+1)</math>，根据引理3，<math>g(y_t|x_t+1)</math>可以是任何分布，在这里，假设<math>g(y_t|x_t+1)</math>为正态分布，即<math>g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\sim N(\mu,\Sigma)</math>，其中<math>\mu =g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))</math>，<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>是常数对角矩阵，进一步，假设<math>\sigma_i</math>是有界的，则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>，其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。则<math>g(y_t|x_t+1)</math>的对数概率密度函数为：

+

<math>\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\approx \ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}} e^{-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}}=-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}}\geq -\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}</math>

+

如果训练足够充分，那么<math> \Tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\approx p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)</math>，故：

+

<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le \iint \Tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\left[\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}\right] \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math>

+

式中，<math>|\Sigma|_{min}=\sigma_{min}^q</math>，<math>|\Sigma|_{max}=\sigma_{max}^q</math>。

+

由于<math>\Tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)=\frac{\Tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)</math>，其中<math>\Tilde{p}(\boldsymbol{y}_{t})</math>是目标分布，<math>\{p}(\boldsymbol{y}_{t})</math>是数据的原始分布。我们定义逆概率权重<math>w(\boldsymbol{x}_t) \equiv \frac{\Tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}</math>，<math>z=\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}</math>。且由于我们使用离散样本<math>{x_t}</math>来训练神经网络，所以我们可以使用样本均值作为期望的近似估计。因此，<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math>的变分上界可写成:

+

<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le \iint w(\boldsymbol{x}_t)p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)z \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} \approx \frac{1}{T}\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)z</math>

+

进而，我们可以得到原目标函数的变分下界：

+

<math>\mathcal{J}(f_{\theta,q}) \ge H(U_q)-\frac{1}{T}\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)z</math>

+

原优化问题（式{{EquationNote|1}}）便转换成：

+

<math>\min_{\omega,\theta,\theta'} \sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2

+

s.t. || \hat{\boldsymbol{x}}_{t+1}-\boldsymbol{x}_{t+1} || < \epsilon</math>

+

式中，<math>\omega</math>，<math>\theta</math>， <math>\theta'</math>分别表示NIS+框架中三个神经网络<math>\psi</math>， <math>f_{\theta}</math>， <math>g_{\theta'}</math>的参数。

+

然后构造拉格朗日函数：

+

<math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dag(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math>

+

优化目标（式{{EquationNote|1}}）便转化为：

+

<math>

+

\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||

+

</math>

+

'''引理'''1——双射映射不影响互信息<ref name=":1" />：

+

对于任意给定的连续随机变量X和Z，如果存在一个双射(一对一)映射f与另一个随机变量Y，使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>，反之亦然，其中<math>Dom (X)</math>表示变量X的域，则X与Z之间的互信息等于Y与Z之间的互信息，即：

+

+

'''引理'''2——连续自变量不影响互信息<ref name=":1" />：

+

若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>，且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量，则：

+

<math>I (X;Y)=I (X;Y\bigoplus Z)</math>

+

'''引理'''3——条件熵的变分上界：

+

给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>，其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>，<math>\boldsymbol{y}\in \mathcal{R}^q</math>，则该条件熵存在一个变分上界：

+

<math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math>

+

其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。

+

引理1——双射映射不影响互信息<ref name=":1" />：

念

259

个编辑