根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(上图b部分),其中宏观状态 <math>\mathbf{y}_t</math> 和预测 <math>\mathbf{y}_{t+1}</math> 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈。
+
根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期宏观变量和输出之间的互信息可能会增加,且输入和宏观变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(上图b部分),其中宏观状态 <math>\mathbf{y}_t</math> 和预测 <math>\mathbf{y}_{t+1}</math> 都是宏观变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS模型的架构可以比一般的神经网络更清楚地反映信息瓶颈。