更改

添加194字节 、 2024年9月1日 (星期日)
添加参考文献、更改文中图片引用方式
第38行: 第38行:     
=简介=
 
=简介=
NIS是一种将[[复杂系统数据驱动建模]]和[[因果涌现]]两种任务集于一体的数学优化框架以及神经网络框架。NIS面对的问题是,给定一组复杂系统运行表现的时间序列数据[math]\mathbf{x}_t[/math],例如一组fMRI的时间序列数据,或者一组鸟群的飞行轨迹,或者一组由[[生命游戏]]元胞自动机生成的图片序列,我们需要找到它的微观动力学、宏观动力学,以及如何从微观动力学映射为宏观动力学的粗粒化策略,并最终判断出该组数据所反映的真实复杂系统是否发生了[[因果涌现]]。
+
NIS是一种将[[复杂系统数据驱动建模]]和[[因果涌现]]两种任务集于一体的数学优化框架以及神经网络框架<ref>Zhang, Jiang. “Neural Information Squeezer for Causal Emergence.” ''ArXiv (Cornell University)'', 1 Jan. 2022, <nowiki>https://doi.org/10.48550/arxiv.2201.10154</nowiki>.</ref>。NIS面对的问题是,给定一组复杂系统运行表现的时间序列数据[math]\mathbf{x}_t[/math],例如一组fMRI的时间序列数据,或者一组鸟群的飞行轨迹,或者一组由[[生命游戏]]元胞自动机生成的图片序列,我们需要找到它的微观动力学、宏观动力学,以及如何从微观动力学映射为宏观动力学的粗粒化策略,并最终判断出该组数据所反映的真实复杂系统是否发生了[[因果涌现]]。
    
==数学定义==
 
==数学定义==
第305行: 第305行:  
\end{cases}</math></blockquote>|{{EquationRef|27}}}}
 
\end{cases}</math></blockquote>|{{EquationRef|27}}}}
 
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 +
 +
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如下图所示。
 +
 +
 
[[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]]
 
[[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]]
   −
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
+
下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math><math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如上图(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如上图a部分所示,当 <math>q</math> 增加时,互信息增加。
    
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
 
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
    +
根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(上图b部分),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈。
   −
  −
下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 <math>q</math> 增加时,互信息增加。
  −
  −
根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。
        第332行: 第333行:  
[[文件:NIS Fig 6.png|600px|单马尔� 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]]
 
[[文件:NIS Fig 6.png|600px|单马尔� 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]]
   −
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
+
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如上图所示。
    
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。
 
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。
68

个编辑