第241行: |
第241行: |
| 如果 NIS 框架中的神经网络是训练充分的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何<math>t \in [1, T]</math>: | | 如果 NIS 框架中的神经网络是训练充分的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何<math>t \in [1, T]</math>: |
| {{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}} | | {{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}} |
− | 其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。 | + | 其中 <math>\simeq</math> 表示<math>t \rightarrow \infty</math> 时的渐近等价。 |
| | | |
| 由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。 | | 由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。 |
| | | |
− | 因为宏观动力学是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的熵一般也会增加。 | + | 因为宏观动力学是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,<math>\psi</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的熵一般也会增加。 |
| | | |
| | | |
| '''信息瓶颈是编码器的下界''' | | '''信息瓶颈是编码器的下界''' |
| | | |
− | 对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息: | + | 对于图3中的压缩信息信道,<math>\psi</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息: |
| {{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t) + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}} | | {{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t) + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}} |
| 其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。 | | 其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。 |