更改

添加8字节 、 2024年9月9日 (星期一)
第320行: 第320行:  
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
 
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
   −
根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(上图b部分),其中宏观状态 <math>\mathbf{y}_t</math> 和预测 <math>\mathbf{y}_{t+1}</math> 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈。
+
根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期宏观变量和输出之间的互信息可能会增加,且输入和宏观变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(上图b部分),其中宏观状态 <math>\mathbf{y}_t</math> 和预测 <math>\mathbf{y}_{t+1}</math> 都是宏观变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS模型的架构可以比一般的神经网络更清楚地反映信息瓶颈。
    
==简单马尔可夫链==
 
==简单马尔可夫链==
786

个编辑