更改

删除32字节 、 2024年8月25日 (星期日)
统一“最优建模尺度”表示字母
第53行: 第53行:  
为了解决上述优化问题,NIS提出了一种神经网络架构,从而可以进行数值求解,如下图:
 
为了解决上述优化问题,NIS提出了一种神经网络架构,从而可以进行数值求解,如下图:
   −
[[文件:NIS Graph new2.png|600px|NIS框架简介|NIS框架结构图。]]
+
[[文件:Screenshot 2024-08-25 181321.png|替代=NIS框架图|600px|靠左|NIS框架图]]
      第61行: 第61行:  
*尺度M下的粗粒化策略(由可逆神经网络INN表示);
 
*尺度M下的粗粒化策略(由可逆神经网络INN表示);
 
*尺度M下的宏观动力学(由动力学学习器得出);
 
*尺度M下的宏观动力学(由动力学学习器得出);
*最优建模尺度M*(由遍历得出最优维数);
+
*最优建模尺度q(由遍历得出最优维数);
 
*判断:是否存在因果涌现(当最优尺度下的有效信息<math>EI_{M*}</math>大于最微观尺度下的有效信息<math>EI_m</math>时判断存在因果涌现)。
 
*判断:是否存在因果涌现(当最优尺度下的有效信息<math>EI_{M*}</math>大于最微观尺度下的有效信息<math>EI_m</math>时判断存在因果涌现)。
   第70行: 第70行:  
接下来,我们将通过数学定义,详细描述NIS框架的基本概念和优化问题。
 
接下来,我们将通过数学定义,详细描述NIS框架的基本概念和优化问题。
   −
== 基本概念==
+
==基本概念==
    
===微观动力学===
 
===微观动力学===
第150行: 第150行:  
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
 
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
   −
[[文件:NIS Graph 1.png|靠左|600px|'''图1.''' 神经信息压缩器的工作流程和框架。]]
+
[[文件:NIS Graph 1.png|600px|经信息� 神经信息压缩器的工作流程和框架。]]
    
==编码器==
 
==编码器==
第183行: 第183行:     
==使用可逆神经网络的原因==
 
==使用可逆神经网络的原因==
[[文件:Pasted image 20240519112728.png|靠左|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]]
+
[[文件:Pasted image 20240519112728.png|600px|射器基� 双射器基本模块的 RealNVP 神经网络 /math> 实现。]]
 +
 
 +
实现。]]
    
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
 
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
第213行: 第215行:  
=NIS的理论性质=
 
=NIS的理论性质=
 
==压缩信道理论==
 
==压缩信道理论==
[[文件:NIS Fig 3.png|靠左|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
+
[[文件:NIS Fig 3.png|600px|经信息� 神经信息压缩器压缩信道的图形模型。]]
    
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
 
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
第299行: 第301行:  
\end{cases}</math></blockquote>|{{EquationRef|27}}}}
 
\end{cases}</math></blockquote>|{{EquationRef|27}}}}
 
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
[[文件:NIS Fig 4.png|靠左|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]]
+
[[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]]
    
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
 
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
   −
[[文件:NIS Fig 5.png|靠左|600px|'''图5.''' 变量间的各类互信息随着训练迭代次数而发生变化。]]
+
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
      第312行: 第314行:       −
== 简单马尔可夫链 ==
+
==简单马尔可夫链==
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
第324行: 第326行:  
0  & 0  & 0  & 0  & 0  & 0  & 0  & 1 \\
 
0  & 0  & 0  & 0  & 0  & 0  & 0  & 1 \\
 
\end{pmatrix}</math></blockquote>|{{EquationNote|28}}}}
 
\end{pmatrix}</math></blockquote>|{{EquationNote|28}}}}
[[文件:NIS Fig 6.png|靠左|600px|'''图6.''' 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]]
+
[[文件:NIS Fig 6.png|600px|单马尔� 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]]
    
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
 
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
第333行: 第335行:     
==简单布尔网络==
 
==简单布尔网络==
[[文件:NIS Fig 7.png|靠左|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]]
+
[[文件:NIS Fig 7.png|600px|尔网络� 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]]
    
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
 
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
[[文件:NIS Fig 8.png|靠左|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]]
+
[[文件:NIS Fig 8.png|600px|尔网络� 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]]
    
通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。
 
通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。
第362行: 第364行:     
为解决这些问题,从NIS框架出发提出[[NIS+]]框架。在NIS的基础上,NIS+框架运用了重加权技术,添加了反向动力学、由此产生一个新的损失函数,并对两个损失函数进行加权。其中,新的损失函数产生于神经网框架中添加的部分:通过对<math>t+1</math>时刻再次编码,在宏观上来训练一个反向动力学来去预测<math>t</math>时刻的一个<math>\hat{y}(t)</math>。将新的损失函数与NIS框架中原有的损失函数加权,可以最大化有效信息的变分下界,解决了NIS框架无法直接最大化EI的问题。
 
为解决这些问题,从NIS框架出发提出[[NIS+]]框架。在NIS的基础上,NIS+框架运用了重加权技术,添加了反向动力学、由此产生一个新的损失函数,并对两个损失函数进行加权。其中,新的损失函数产生于神经网框架中添加的部分:通过对<math>t+1</math>时刻再次编码,在宏观上来训练一个反向动力学来去预测<math>t</math>时刻的一个<math>\hat{y}(t)</math>。将新的损失函数与NIS框架中原有的损失函数加权,可以最大化有效信息的变分下界,解决了NIS框架无法直接最大化EI的问题。
=参考文献=
+
=参考文献 =
    
<references />
 
<references />
第372行: 第374行:  
*[https://pattern.swarma.org/study_group_issue/373 因果涌现读书会第二季]
 
*[https://pattern.swarma.org/study_group_issue/373 因果涌现读书会第二季]
 
===文章推荐===
 
===文章推荐===
*Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26.
+
* Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26.
    
===路径推荐===
 
===路径推荐===
68

个编辑