第1行: |
第1行: |
− | NIS(神经信息压缩器)是一个以解决因果涌现辨识问题为目的的神经网络框架。它由编码器、解码器、动力学学习器三部分组成,其中编码器、解码器共享同一个可逆神经网络。NIS可以通过微观状态时间序列的输入、训练后输出粗粒化策略、宏观动力学、最优建模尺度,并判断是否存在[[因果涌现]]。NIS框架可以被视为一个压缩信道,通过投影操作在中间进行信道压缩。这种压缩信息通道通过约束粗粒化策略,将复杂的微观状态映射到简单的宏观状态,从而定义了有效的粗粒化策略和宏观动态。基于信息瓶颈理论,NIS框架通过神经网络模型的训练过程中,逐渐使得其输出与真实数据的互信息接近于 <math> I(\mathbf{x}_{t+1}; \mathbf{x}_t) </math>,从而增强了整个系统的因果涌现特性。 | + | NIS(神经信息压缩器)是一个以解决因果涌现辨识问题为目的的神经网络框架。它由编码器、解码器、动力学学习器三部分组成,其中编码器、解码器共享同一个可逆神经网络。NIS可以通过微观状态时间序列的输入、训练后输出粗粒化策略、宏观动力学、最优建模尺度,并判断是否存在[[因果涌现]]。NIS框架可以被视为一个压缩信道,通过投影操作在中间进行信道压缩。这种压缩信息通道通过约束粗粒化策略,将复杂的微观状态映射到简单的宏观状态,从而定义了有效的粗粒化策略和宏观态。基于信息瓶颈理论,NIS框架通过神经网络模型的训练过程中,逐渐使得其输出与真实数据的互信息接近于 <math> I(\mathbf{x}_{t+1}; \mathbf{x}_t) </math>,从而增强了整个系统的因果涌现特性。 |
| 验证其性质的实验包括带测量噪声的弹簧振荡器、简单布尔网络等,由其部分不足之处也衍生出了[[NIS+]]框架。NIS在信息瓶颈理论的指导下,展示了在时间序列数据中发现因果涌现的理论性质和应用潜力。 | | 验证其性质的实验包括带测量噪声的弹簧振荡器、简单布尔网络等,由其部分不足之处也衍生出了[[NIS+]]框架。NIS在信息瓶颈理论的指导下,展示了在时间序列数据中发现因果涌现的理论性质和应用潜力。 |
| | | |
第39行: |
第39行: |
| | | |
| ==数学定义== | | ==数学定义== |
− | NIS为了达到上一节中最大化系统动力学的有效信息的目的,需要在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。粗粒化策略优化问题可以表述为:
| + | NIS为了达到上一节中最大化系统动力学的有效信息的目的,需要在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。这一问题可以表述为: |
| | | |
| <math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q})</math> | | <math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q})</math> |
第45行: |
第45行: |
| <nowiki>其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI,即dEI)。[math]\displaystyle{ \phi_q }[/math]是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q}}[/math]是一种有效的宏观动力学。</nowiki> | | <nowiki>其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI,即dEI)。[math]\displaystyle{ \phi_q }[/math]是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q}}[/math]是一种有效的宏观动力学。</nowiki> |
| | | |
− | 该定义符合近似因果模型的抽象。
| + | 该定义符合近似因果模型的抽象<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。 |
| | | |
| ==神经网络框架== | | ==神经网络框架== |
第58行: |
第58行: |
| *判断:是否存在因果涌现(当最优尺度下的有效信息<math>EI_{M*}</math>大于最微观尺度下的有效信息<math>EI_m</math>时判断存在因果涌现)。 | | *判断:是否存在因果涌现(当最优尺度下的有效信息<math>EI_{M*}</math>大于最微观尺度下的有效信息<math>EI_m</math>时判断存在因果涌现)。 |
| | | |
− | 这一架构的另一优点是,其解码器可由编码器逆转得到,且可以自上而下地从编码器配合随机采样的数据生成微观态细节,属于生成模型的一种。
| + | 这一架构的另一优点是,其解码器可由编码器逆转得到,且可以自上而下地从解码器配合随机采样的数据生成微观态细节,属于生成模型的一种。 |
| | | |
| =问题描述= | | =问题描述= |
第91行: |
第91行: |
| 有效粗粒化策略应是一个宏观态中可以'''尽量多地保存微观态信息'''的压缩映射。 | | 有效粗粒化策略应是一个宏观态中可以'''尽量多地保存微观态信息'''的压缩映射。 |
| | | |
− | *'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学''' | + | *'''<math>\epsilon</math>-effective q维粗粒化与宏观动力学''' |
| 如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效): | | 如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效): |
| {{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}} | | {{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}} |
第120行: |
第120行: |
| 投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数,表达为 | | 投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数,表达为 |
| {{NumBlk|:|<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q,</math></blockquote>|{{EquationNote|7}}}} | | {{NumBlk|:|<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q,</math></blockquote>|{{EquationNote|7}}}} |
− | 其中<math>\bigoplus</math> 是向量串联算符,<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。 若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样,编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>,分为两个步骤: | + | 其中<math>\bigoplus</math> 是向量串联算符,<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。 <math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样,编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>,分为两个步骤: |
| {{NumBlk|:|<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha</math></blockquote>|{{EquationNote|8}}}} | | {{NumBlk|:|<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha</math></blockquote>|{{EquationNote|8}}}} |
− | 其中<math>\circ</math>表示函数组合运算。 | + | 其中<math>\circ</math>表示函数复合运算。 |
| | | |
| 第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。 | | 第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。 |
第142行: |
第142行: |
| 其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有 | | 其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有 |
| {{NumBlk|:|<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q})</math></blockquote>|{{EquationRef|12}}}} | | {{NumBlk|:|<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q})</math></blockquote>|{{EquationRef|12}}}} |
− | 其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。 | + | 其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微观状态。 |
| | | |
− | 解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref>,而编码器执行正态化过程。 | + | 解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref>,而编码器执行重整化过程。 |
| | | |
| ==为什么使用可逆神经网络?== | | ==为什么使用可逆神经网络?== |
| [[文件:Pasted image 20240519112728.png|居中|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]] | | [[文件:Pasted image 20240519112728.png|居中|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]] |
− | 有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。同时选择如图2所示的RealNVP模块<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。 | + | 有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。 |
| | | |
− | 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 | + | 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用来缩放的共享参数的神经网络,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用来平移的共享参数的神经网络。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 |
| | | |
| ==两步优化== | | ==两步优化== |
第158行: |
第158行: |
| ===训练一个预测器=== | | ===训练一个预测器=== |
| | | |
− | 在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。
| + | 在第一阶段,可以使用似然最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。 |
| | | |
− | 前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。 | + | 前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数似然或交叉熵。 |
| {{NumBlk|:|<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t)</math></blockquote>|{{EquationRef|13}}}} | | {{NumBlk|:|<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t)</math></blockquote>|{{EquationRef|13}}}} |
| 其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。 | | 其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。 |
第172行: |
第172行: |
| 在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。 | | 在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。 |
| | | |
− | 为了选择最优的 <math>q</math>,可以比较不同 <math>q</math> 粗粒化宏观动力学的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的,其值范围也有限 <math>(0 < q < p)</math>,可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。 | + | 为了选择最优的 <math>q</math>,可以比较不同 <math>q</math> 维粗粒化的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的,其值范围也有限 <math>(0 < q < p)</math>,可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。 |
| | | |
| | | |
第186行: |
第186行: |
| 其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式{{EquationNote|2}}。 | | 其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式{{EquationNote|2}}。 |
| | | |
− | 对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。 | + | 对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>(\mathbf{x}_t)</math> 到 <math>(\hat{\mathbf{x}}_{t+1})</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>。 |
| | | |
| ==训练过程的变化== | | ==训练过程的变化== |
第195行: |
第195行: |
| '''模型的互信息与数据的互信息接近''' | | '''模型的互信息与数据的互信息接近''' |
| | | |
− | 如果 NIS 框架中的神经网络是训练有素的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]: | + | 如果 NIS 框架中的神经网络是训练充分的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何<math>t \in [1, T]</math>: |
| {{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}} | | {{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}} |
| 其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。 | | 其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。 |
第207行: |
第207行: |
| | | |
| 对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息: | | 对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息: |
− | {{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}} | + | {{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t) + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}} |
| 其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。 | | 其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。 |
| | | |
− | 由于给出了XT及其香农熵的分布,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
| + | 由于给出了<math>\mathbf{\mathrm{x}}_t</math>的熵,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。 |
| | | |
− | 因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。 | + | 因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。 |
| | | |
| ==有效信息主要由粗粒化函数决定== | | ==有效信息主要由粗粒化函数决定== |
− | 此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
| + | 此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果涌现的主要成分是双射器<math>\psi_\alpha</math>。 |
| | | |
| | | |
| '''宏观动力学有效信息的数学表达式''' | | '''宏观动力学有效信息的数学表达式''' |
| | | |
− | 假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述,且神经信息挤压框架训练有素,即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息: | + | 假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述,且神经信息挤压框架训练充分,即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息: |
| {{NumBlk|:|<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x}</math></blockquote>|{{EquationRef|24}}}} | | {{NumBlk|:|<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x}</math></blockquote>|{{EquationRef|24}}}} |
| 其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。 | | 其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。 |
第230行: |
第230行: |
| '''如果模型训练良好,宏观动力学的互信息不会发生变化''' | | '''如果模型训练良好,宏观动力学的互信息不会发生变化''' |
| | | |
− | 对于训练有素的NIS模型,宏观动力学<math>f_\beta</math>的互信息将与所有参数(包括刻度<math>q</math>)无关。
| + | 对于训练充分的NIS模型,宏观动力学<math>f_\beta</math>的互信息将与所有参数(包括刻度<math>q</math>)无关。 |
− | 如果神经网络训练有素,则有关宏观动力学的共同信息将接近数据<math>\{\mathbf{x}_t\}</math>中的信息。因此,无论<math>q</math>有多小(或尺度有多大),宏观动力学<math>f_\beta</math>的互信息都会保持恒定。
| + | 如果神经网络训练充分,则有关宏观动力学的互信息将接近数据<math>\{\mathbf{x}_t\}</math>中的信息。因此,无论<math>q</math>有多小(或尺度有多大),宏观动力学<math>f_\beta</math>的互信息都会保持恒定。 |
| | | |
| 由此可得,<math>q</math>是因果涌现的无关参数。但根据dEI的定义,较小的<math>q</math>意味着编码器将携带更多有效信息。 | | 由此可得,<math>q</math>是因果涌现的无关参数。但根据dEI的定义,较小的<math>q</math>意味着编码器将携带更多有效信息。 |
第260行: |
第260行: |
| \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ | | \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ |
| \end{cases}</math></blockquote>|{{EquationRef|27}}}} | | \end{cases}</math></blockquote>|{{EquationRef|27}}}} |
− | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 | + | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 |
| [[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] | | [[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] |
| 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 | | 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 |
第283行: |
第283行: |
| 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ | | 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ |
| \end{pmatrix}</math></blockquote>|{{EquationNote|28}}}} | | \end{pmatrix}</math></blockquote>|{{EquationNote|28}}}} |
− | [[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。]] | + | [[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]] |
− | 该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。 | + | 该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。 |
| | | |
− | 通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献[6]中的示例相同。 | + | 通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。 |
| | | |
− | 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。 | + | 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了定理2。 |
| | | |
| ==简单布尔网络 == | | ==简单布尔网络 == |
− | [[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。]] | + | [[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]] |
− | 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 | + | 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 |
− | [[文件:NIS Fig 8.png|居中|600px|'''图8.''' 布尔网络的实验结果。]] | + | [[文件:NIS Fig 8.png|居中|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] |
− | 通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。 | + | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(上图c, d部分)。 |
| | | |
| =有效信息的度量= | | =有效信息的度量= |
第310行: |
第310行: |
| NIS框架的弱点如下。 | | NIS框架的弱点如下。 |
| | | |
− | 首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作,目前的数值实验也集中在弹簧振子和简单布尔网络等环境下;
| + | * 由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作,目前的数值实验也集中在弹簧振子和简单布尔网络等环境下; |
− | | + | * 该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>; |
− | 其次,该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>;
| + | * NIS并未真正地最小化有效信息; |
− | | + | * 该模型可预测的条件分布仅限于高斯或拉普拉斯分布。 |
− | 第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。
| |
| | | |
| ===未来展望:NIS+框架=== | | ===未来展望:NIS+框架=== |
| | | |
− | 为解决这些问题,从NIS框架出发提出[[NIS+]]框架。在NIS的基础上,NIS+框架添加了反向动力学、由此产生一个新的损失函数,并对两个损失函数进行加权。其中,新的损失函数产生于神经网框架中添加的部分:通过对<math>t+1</math>时刻再次编码,在宏观上来训练一个反向动力学来去预测<math>t</math>时刻的一个<math>\hat{y}(t)</math>。将新的损失函数与NIS框架中原有的损失函数加权,可以直接最大化EI,解决了NIS框架无法直接最大化EI的问题。 | + | 为解决这些问题,从NIS框架出发提出[[NIS+]]框架。在NIS的基础上,NIS+框架运用了重加权技术,添加了反向动力学、由此产生一个新的损失函数,并对两个损失函数进行加权。其中,新的损失函数产生于神经网框架中添加的部分:通过对<math>t+1</math>时刻再次编码,在宏观上来训练一个反向动力学来去预测<math>t</math>时刻的一个<math>\hat{y}(t)</math>。将新的损失函数与NIS框架中原有的损失函数加权,可以最大化有效信息的变分下界,解决了NIS框架无法直接最大化EI的问题。 |
| =参考文献= | | =参考文献= |
| | | |
第327行: |
第326行: |
| | | |
| ===因果涌现读书会=== | | ===因果涌现读书会=== |
− | | + | *[https://pattern.swarma.org/study_group_issue/373 因果涌现读书会第二季] |
− | | |
− | *[https://pattern.swarma.org/study_group_issue/373 因郭涌现读书会第二季] | |
− | | |
− | | |
| ===文章推荐=== | | ===文章推荐=== |
| *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. | | *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. |