第8行: |
第8行: |
| [[因果涌现]]的概念不仅将因果推理与[[复杂系统]]的涌现特性相结合,而且为解决一系列哲学问题提供了一个定量化的视角。 | | [[因果涌现]]的概念不仅将因果推理与[[复杂系统]]的涌现特性相结合,而且为解决一系列哲学问题提供了一个定量化的视角。 |
| | | |
− | 目前,关于如何定义[[因果涌现]],有四个主要代表,分别是:①Hoel等基于粗粒化方法的因果涌现理论<ref>Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref>Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>、②Rosas等基于信息分解的因果涌现理论<ref>Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>、③张江等人基于奇异值分解的因果涌现理论<ref>Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>、④Barnett等的动力学解耦<ref>Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.</ref>。 | + | 目前,关于如何定义[[因果涌现]],有四个主要代表,分别是:①Hoel等基于粗粒化方法的因果涌现理论<ref>Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref>Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>、②Rosas等基于信息分解的因果涌现理论<ref name=":0">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>、③张江等人基于奇异值分解的因果涌现理论<ref>Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>、④Barnett等的动力学解耦<ref>Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.</ref>。 |
| | | |
| 具体内容可以参考词条[[因果涌现]]。 | | 具体内容可以参考词条[[因果涌现]]。 |
第22行: |
第22行: |
| === 基于信息分解的因果涌现识别 === | | === 基于信息分解的因果涌现识别 === |
| | | |
− | Rosas等学者通过信息分解框架给出了和Hoel等人不同的对因果涌现的新定义,并基于此识别量化[[因果涌现]]。但是信息分解框架中定义的信息原子难以计算,所以作者推导出只需要计算互信息的近似公式,提出了判定[[因果涌现]]发生的充分条件,即<math>\Psi_{t, t+1}(V) </math>,具体公式如下:
| + | Rosas等学者<ref name=":0" /><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>通过信息分解框架给出了和Hoel等人不同的对[[因果涌现]]的新定义,并基于此识别量化[[因果涌现]]。但是信息分解框架中定义的信息原子难以计算,所以作者推导出只需要计算[[互信息]]的近似公式,提出了判定[[因果涌现]]发生的充分条件,即<math>\Psi_{t, t+1}(V) </math>,具体公式如下: |
| | | |
| <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> | | <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> |
第30行: |
第30行: |
| 当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生[[因果涌现]]。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生[[因果涌现]]。 | | 当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生[[因果涌现]]。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生[[因果涌现]]。 |
| | | |
− | 需要指出的是,Hoel的定义和识别方法基于Judea Pearl因果,而此方法是基于格兰杰因果,利用机器学习框架<ref>Kaplanis Christos, Mediano Pedro, Rosas Fernando. Learning Causally Emergent Representations''. NeurIPS 2023 workshop: Information-Theoretic Principles in Cognitive Systems''</ref>,计算互信息的组合,没有引入do干预。 | + | 需要指出的是,Hoel的定义和识别方法基于Judea Pearl因果,而此方法是基于[[格兰杰因果关系|格兰杰因果]],利用机器学习框架<ref>Kaplanis Christos, Mediano Pedro, Rosas Fernando. Learning Causally Emergent Representations''. NeurIPS 2023 workshop: Information-Theoretic Principles in Cognitive Systems''</ref>,计算[[互信息]]的组合,没有引入do干预。 |
| | | |
− | 该方法因为是格兰杰因果,所以计算比较方便,不需要找到底层的动力学机制。且对系统的动力学没有马尔可夫性的假设和要求。但是也存在一些缺点:
| + | 该方法因为是[[格兰杰因果关系|格兰杰因果]],所以计算比较方便,不需要找到底层的动力学机制。且对系统的动力学没有马尔可夫性的假设和要求。但是也存在一些缺点: |
| | | |
− | 1)该方法只是基于互信息计算,且得到的仅仅是发生因果涌现的近似的充分条件;
| + | 1)该方法只是基于[[互信息]]计算,且得到的仅仅是发生[[因果涌现]]的近似的充分条件; |
| | | |
| 2)该方法需要手动给定粗粒化策略和宏观变量,而不同的选择会对结果造成显著影响; | | 2)该方法需要手动给定粗粒化策略和宏观变量,而不同的选择会对结果造成显著影响; |
第40行: |
第40行: |
| 3)高维系统中,<math>\Psi </math>作为近似条件,误差非常大,很容易得到负值,从而无法判断是否有因果涌现发生。 | | 3)高维系统中,<math>\Psi </math>作为近似条件,误差非常大,很容易得到负值,从而无法判断是否有因果涌现发生。 |
| | | |
− | 为了能够自动找到最佳的粗粒化策略,这套理论框架也发展出了相应的机器学习方法。Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用神经网络来学习将微观输入粗粒化成宏观输出,同时使用两个神经网络来分别学习互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''<u>(暂定)</u>'' | + | 为了能够自动找到最佳的粗粒化策略,这套理论框架也发展出了相应的机器学习方法。Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用神经网络来学习将微观输入粗粒化成宏观输出,同时使用两个神经网络来分别学习[[互信息]]的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 |
| | | |
| === NIS系列 === | | === NIS系列 === |
| [[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。 | | [[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。 |
| | | |
− | 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。 | + | 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。 |
| [[文件:NISImage.png|边框|右|无框]] | | [[文件:NISImage.png|边框|右|无框]] |
| 图中,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。 | | 图中,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。 |
第75行: |
第75行: |
| <math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math> | | <math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math> |
| | | |
− | 为了降低编码器<math>ϕ</math>和解码器<math>ϕ^\dagger</math>的复杂程度,作者将编码过程分解为两个步骤:
| + | 为了数学性质和可解释性,以及降低模型参数量,采用了可逆神经网络。作者将编码过程分解为了两个步骤: |
| | | |
| ①双射映射,<math> ψ: R_p → R_p </math>,此步无信息丢失,由可逆神经网络实现。 | | ①双射映射,<math> ψ: R_p → R_p </math>,此步无信息丢失,由可逆神经网络实现。 |
第108行: |
第108行: |
| 但是此模型还有一些缺点和尚未改进的地方: | | 但是此模型还有一些缺点和尚未改进的地方: |
| | | |
− | 1)INN网络在大数据集上难以训练,此模型目前只能在小数据集上使用。
| + | 1)此框架目前只能在小数据集上使用,难以拓展到更大规模的复杂系统上。 |
| | | |
− | 2)虽然我们可以说明什么是粗粒度函数,并将其清晰地分解为信息转换和信息丢弃两个部分,但变量的分组方法隐式编码在可逆神经网络中。框架仍然缺乏可解释性,
| + | 2)虽然我们可以说明什么是粗粒度函数,并将其清晰地分解为信息转换和信息丢弃两个部分,但变量的分组方法隐式编码在可逆神经网络中,宏观动力学学习器的机制也没有完全透明。框架仍然缺乏可解释性, |
| | | |
− | 3)模型所能预测的条件分布实际上仅限于高斯分布或拉普拉斯分布。
| + | 3)模型需要基于马尔科夫性的假设。 |
| | | |
| 4)此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化有效信息。在NIS+中,学者将通过计算变分下界解决泛函问题。 | | 4)此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化有效信息。在NIS+中,学者将通过计算变分下界解决泛函问题。 |
第121行: |
第121行: |
| | | |
| == 概述 == | | == 概述 == |
− | | + | [[文件:NIS+ new.png|右|无框|660x660像素]] |
| 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络<math>g</math>来学习逆宏观动力学,即使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证互信息最大化。最后,利用概率重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 | | 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络<math>g</math>来学习逆宏观动力学,即使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证互信息最大化。最后,利用概率重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 |
| | | |