第289行: |
第289行: |
| | | |
| =数值实验= | | =数值实验= |
− | 在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。 | + | 论文<ref name="1" />在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。 |
| | | |
− | ==带测量噪声的弹簧振荡器== | + | ==带测量噪声的弹簧振子== |
− | 振荡器符合如下动力学方程组:
| + | 弹簧振子符合如下动力学方程组: |
| {{NumBlk|:|<blockquote><math>\begin{cases} | | {{NumBlk|:|<blockquote><math>\begin{cases} |
| dz/dt = v \\ | | dz/dt = v \\ |
| dv/dt = -z | | dv/dt = -z |
| \end{cases}</math></blockquote>|{{EquationRef|26}}}} | | \end{cases}</math></blockquote>|{{EquationRef|26}}}} |
− | 其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。 | + | 其中<math>z</math>和<math>v</math>分别是振子的一维位置与速度。这里,系统微观状态为<math>\mathbf{x} = (z,v)</math>。 |
| | | |
| 实验数据仅由两个带误差的传感器获得。假设观测模型为 | | 实验数据仅由两个带误差的传感器获得。假设观测模型为 |
第304行: |
第304行: |
| \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ | | \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ |
| \end{cases}</math></blockquote>|{{EquationRef|27}}}} | | \end{cases}</math></blockquote>|{{EquationRef|27}}}} |
− | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 | + | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观x。 |
| [[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]] | | [[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]] |
| | | |
第315行: |
第315行: |
| 下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 <math>q</math> 增加时,互信息增加。 | | 下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 <math>q</math> 增加时,互信息增加。 |
| | | |
− | 根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。 | + | 根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。 |
| | | |
| | | |
第339行: |
第339行: |
| | | |
| ==简单布尔网络== | | ==简单布尔网络== |
− | [[文件:NIS Fig 7.png|600px|尔网络� 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]] | + | [[文件:NIS Fig 7.png|600px|布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]] |
| | | |
| 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 | | 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 |
− | [[文件:NIS Fig 8.png|600px|尔网络� 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] | + | [[文件:NIS Fig 8.png|600px|布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] |
| | | |
− | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。 | + | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。 |
| | | |
| =有效信息的度量= | | =有效信息的度量= |