更改

删除17字节 、 2024年8月31日 (星期六)
第241行: 第241行:  
如果 NIS 框架中的神经网络是训练充分的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何<math>t \in [1, T]</math>:
 
如果 NIS 框架中的神经网络是训练充分的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何<math>t \in [1, T]</math>:
 
{{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}}
 
{{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}}
其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。
+
其中 <math>\simeq</math> 表示<math>t \rightarrow \infty</math> 时的渐近等价。
    
由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。
 
由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。
   −
因为宏观动力学是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的熵一般也会增加。
+
因为宏观动力学是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,<math>\psi</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的熵一般也会增加。
       
'''信息瓶颈是编码器的下界'''
 
'''信息瓶颈是编码器的下界'''
   −
对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息:
+
对于图3中的压缩信息信道,<math>\psi</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息:
 
{{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t) + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}}
 
{{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t) + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}}
 
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。
 
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。
727

个编辑