第164行: |
第164行: |
| <math>I(Y_t,\hat{Y}_{t+1})=I(Y_t,\hat{X}_{t+1})=H(Y_t)-H(Y_t|\hat{X}_{t+1})</math> | | <math>I(Y_t,\hat{Y}_{t+1})=I(Y_t,\hat{X}_{t+1})=H(Y_t)-H(Y_t|\hat{X}_{t+1})</math> |
| | | |
− | 令<math>U_q</math>为宏观变量的均匀分布,那么<math>H(\Tilde{Y}_t)=H(U_q)</math>。故: | + | 令<math>U_q</math>为宏观变量的均匀分布,那么<math>H(\tilde{Y}_t)=H(U_q)</math>。故: |
| | | |
− | <math>\mathcal{J}(f_{\theta,q})=I(\Tilde{Y}_{t},\hat{X}_{t+1})=H(U_q)-H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math> | + | <math>\mathcal{J}(f_{\theta,q})=I(\tilde{Y}_{t},\hat{X}_{t+1})=H(U_q)-H(\tilde{Y}_t|\tilde{X}_{t+1})</math> |
| | | |
− | 由于<math>H(U_q)</math>为常数,所以<math>\mathcal{J}(f_{q})</math>的优化可以转化为条件熵<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math>的最小化优化问题。根据引理3可以得知: | + | 由于<math>H(U_q)</math>为常数,所以<math>\mathcal{J}(f_{q})</math>的优化可以转化为条件熵<math>H(\tilde{Y}_t|\tilde{X}_{t+1})</math>的最小化优化问题。根据引理3可以得知: |
| | | |
− | <math> H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le -\iint \Tilde{p}(\boldsymbol{y}_t, \boldsymbol{x}_{t+1})\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} = -\iint \Tilde{p}(\boldsymbol{y}_{t})\Tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math> | + | <math> H(\tilde{Y}_t|\tilde{X}_{t+1}) \le -\iint \tilde{p}(\boldsymbol{y}_t, \boldsymbol{x}_{t+1})\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} = -\iint \tilde{p}(\boldsymbol{y}_{t})\tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1}) \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math> |
| | | |
− | 式中,<math>\Tilde{p}</math>表示随机变量<math>Y_t</math>被干预情况下的概率分布函数。 | + | 式中,<math>\tilde{p}</math>表示随机变量<math>Y_t</math>被干预情况下的概率分布函数。 |
| | | |
| 作者使用神经网络来拟合分布<math>g(y_t|x_t+1)</math>,根据引理3,<math>g(y_t|x_t+1)</math>可以是任何分布,在这里,假设<math>g(y_t|x_t+1)</math>为正态分布,即<math>g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\sim N(\mu,\Sigma)</math>,其中<math>\mu =g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))</math>,<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>是常数对角矩阵,进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。则<math>g(y_t|x_t+1)</math>的对数概率密度函数为: | | 作者使用神经网络来拟合分布<math>g(y_t|x_t+1)</math>,根据引理3,<math>g(y_t|x_t+1)</math>可以是任何分布,在这里,假设<math>g(y_t|x_t+1)</math>为正态分布,即<math>g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\sim N(\mu,\Sigma)</math>,其中<math>\mu =g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))</math>,<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>是常数对角矩阵,进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。则<math>g(y_t|x_t+1)</math>的对数概率密度函数为: |
第178行: |
第178行: |
| <math>\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\approx \ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}} e^{-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}}=-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}}\geq -\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}</math> | | <math>\ln g(\boldsymbol{y}_t|\boldsymbol{x}_{t+1})\approx \ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}} e^{-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}}=-\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|^\frac{1}{2}}\geq -\frac{(\boldsymbol{y}_t-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|}+\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}</math> |
| | | |
− | 如果训练足够充分,那么<math> \Tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\approx p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)</math>,故: | + | 如果训练足够充分,那么<math> \tilde{p}(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\approx p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)</math>,故: |
| | | |
− | <math>H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le \iint \Tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\left[\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}\right] \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math> | + | <math>H(\Tilde{Y}_t|\tilde{X}_{t+1}) \le \iint \tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)\left[\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}\right] \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1}</math> |
| | | |
| 式中,<math>|\Sigma|_{min}=\sigma_{min}^q</math>,<math>|\Sigma|_{max}=\sigma_{max}^q</math>。 | | 式中,<math>|\Sigma|_{min}=\sigma_{min}^q</math>,<math>|\Sigma|_{max}=\sigma_{max}^q</math>。 |
| | | |
− | 由于<math>\Tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)=\frac{\Tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)</math>,其中<math>\Tilde{p}(\boldsymbol{y}_{t})</math>是目标分布,<math>\{p}(\boldsymbol{y}_{t})</math>是数据的原始分布。我们定义逆概率权重<math>w(\boldsymbol{x}_t) \equiv \frac{\Tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}</math>,<math>z=\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}</math>。且由于我们使用离散样本<math>{x_t}</math>来训练神经网络,所以我们可以使用样本均值作为期望的近似估计。因此,<math>H(\Tilde{Y}_t|\Tilde{X}_{t+1})</math>的变分上界可写成: | + | 由于<math>\tilde{p}(\boldsymbol{y}_{t})p(\boldsymbol{x}_{t+1}|\boldsymbol{y}_t)=\frac{\tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)</math>,其中<math>\tilde{p}(\boldsymbol{y}_{t})</math>是目标分布,<math>p(\boldsymbol{y}_{t})</math>是数据的原始分布。我们定义逆概率权重<math>w(\boldsymbol{x}_t) \equiv \frac{\tilde{p}(\boldsymbol{y}_{t})}{p(\boldsymbol{y}_{t})}</math>,<math>z=\frac{(\phi (\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1})))^2}{2|\Sigma|_{min}}-\ln \frac{1}{(2\pi)^{\frac{m}{2}}|\Sigma|_{max}^\frac{1}{2}}</math>。且由于我们使用离散样本<math>{x_t}</math>来训练神经网络,所以我们可以使用样本均值作为期望的近似估计。因此,<math>H(\tilde{Y}_t|\tilde{X}_{t+1})</math>的变分上界可写成: |
| | | |
− | <math>H(\Tilde{Y}_t|\Tilde{X}_{t+1}) \le \iint w(\boldsymbol{x}_t)p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)z \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} \approx \frac{1}{T}\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)z</math> | + | <math>H(\tilde{Y}_t|\tilde{X}_{t+1}) \le \iint w(\boldsymbol{x}_t)p(\boldsymbol{x}_{t+1},\boldsymbol{y}_t)z \mathrm{d}\boldsymbol{y}_t \mathrm{d}\boldsymbol{x}_{t+1} \approx \frac{1}{T}\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)z</math> |
| | | |
| 进而,我们可以得到原目标函数的变分下界: | | 进而,我们可以得到原目标函数的变分下界: |
第201行: |
第201行: |
| 然后构造拉格朗日函数: | | 然后构造拉格朗日函数: |
| | | |
− | <math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dag(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math> | + | <math> L(\omega,\theta,\theta',\lambda)=\sum_{i=0}^{T-1}w(\boldsymbol{x}_t)|\phi(\boldsymbol{x}_t)-g_{\theta'}(\phi(\boldsymbol{x}_{t+1}))|^2+\lambda|| \phi^\dagger(\boldsymbol{y}_{t+1})-\boldsymbol{x}_{t+1} ||</math> |
| | | |
| 优化目标(式{{EquationNote|1}})便转化为: | | 优化目标(式{{EquationNote|1}})便转化为: |