更改

添加18字节 、 2024年9月9日 (星期一)
第262行: 第262行:  
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。
 
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。
   −
由于给出了<math>\mathbf{\mathrm{x}}_t</math>的熵,NIS的互信息性质定理指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的互信息。
+
由于<math>\mathbf{\mathrm{x}}_t</math>的熵是由数据而定的,NIS的互信息性质定理指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的互信息。
   −
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math><math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
+
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已逼近<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>,或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
    
==有效信息主要由粗粒化函数决定==
 
==有效信息主要由粗粒化函数决定==
786

个编辑