更改

'''因果涌现（causal emergence）'''是指动力系统中的一类特殊的[[涌现]]现象，即系统在宏观尺度会展现出更强的因果特性。特别的，对于一类[[马尔科夫动力系统]]来说，在对其状态空间进行适当的[[粗粒化]]以后，所形成的宏观动力学会展现出比微观更强的因果特性，那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。同时，因果涌现理论也是一种利用因果效应度量来量化复杂系统中的涌现现象的理论。

+

==历史==

===相关概念的发展===

因果涌现理论是一种试图用基于因果的定量研究方法，从现象学的角度回答什么是涌现这一问题的理论，因此因果涌现的发展与人们对涌现和因果等概念的认识和发展密切相关。

+

====涌现====

[[涌现]]一直是[[复杂系统]]中的一个重要特性，是许多关于系统[[复杂性]]，以及宏微观之间关系讨论的核心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref name=":7">Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和，即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管学者们在各个领域都指出存在涌现的现象<ref name=":7" /><ref>Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.</ref>，如鸟类的[[群体行为]]<ref>Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.</ref>，大脑中的[[意识]]形成，以及大语言模型的[[涌现]]能力<ref>Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.</ref>，但目前还没有对这一现象普遍认可的统一理解。以往对涌现的研究大多停留在定性的阶段，如 Bedau et al<ref name=":9">Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef] </ref><ref>Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50. </ref>对涌现进行了分类研究，即将涌现分为名义涌现<ref name=":10">Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.</ref><ref name=":11">Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.</ref>、弱涌现<ref name=":9" /><ref>Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]</ref>与强涌现<ref name=":12">Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138. </ref><ref name=":13">O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104</ref>。

第9行：第12行：

* [[名义涌现]]可以理解为能被宏观层级所拥有，而微观层次没有的属性和模式，例如若干像素构成的圆这一形状就是一种名义涌现<ref name=":10" /><ref name=":11" />。

* [[弱涌现]]是指宏观层面的属性或过程是通过单个组件之间以复杂相互作用的方式产生的，或者弱涌现也可以被理解为原则上能够被计算机模拟的特性。由于[[计算不可约性]]原理，弱涌现特性即使能够被模拟，但仍然不能轻易地简化为微观层面的属性。对于弱涌现来说，其模式产生的原因可能来自微观和宏观两个层面<ref name=":12" /><ref name=":13" />，因此，涌现的因果关系可能与微观因果关系并存。

−

* 而对于[[强涌现]]来说存在很多的争论，它指的是宏观层面的属性，原则上不能简化为微观层面的属性，包括个体之间的相互作用。此外，Jochen ~~Fromm进一步将强涌现解释为~~[[向下因果]]的[[因果效应]]<ref>Fromm, J. Types and forms of emergence. arXiv 2005, arXiv:nlin/0506028</ref>。[[向下因果]]关系是指从宏观层面向微观层面的[[因果力]]。然而，关于[[向下因果]]关系本身的概念存在许多争议<ref>Bedau, M.A.; Humphreys, P. Emergence: Contemporary Readings in Philosophy and Science; MIT Press: Cambridge, MA, USA, 2008. </ref><ref>Yurchenko, S.B. Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? TechRxiv 2023 . [CrossRef] </ref>。

+

* 而对于[[强涌现]]来说存在很多的争论，它指的是宏观层面的属性，原则上不能简化为微观层面的属性，包括个体之间的相互作用。此外，Jochen Fromm 进一步将强涌现解释为[[向下因果]]的[[因果效应]]<ref>Fromm, J. Types and forms of emergence. arXiv 2005, arXiv:nlin/0506028</ref>。[[向下因果]]关系是指从宏观层面向微观层面的[[因果力]]。然而，关于[[向下因果]]关系本身的概念存在许多争议<ref>Bedau, M.A.; Humphreys, P. Emergence: Contemporary Readings in Philosophy and Science; MIT Press: Cambridge, MA, USA, 2008. </ref><ref>Yurchenko, S.B. Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? TechRxiv 2023 . [CrossRef] </ref>。

由这些早期研究可以看出，涌现与因果有着天然的深刻联系。

+

====因果及其度量====

−

所谓的因果就是指事件彼此之间的相互影响。因果不等于相关，这体现为，不仅当A发生时B会发生，而且如果A不发生，则B也不发生。人们只有通过干预事件A，从而考察B的结果，才能探测A与B是否存在着因果关系。

+

所谓的因果就是指事件彼此之间的相互影响。因果不等于相关，这体现为，不仅当 A 发生时 B 会发生，而且如果 A 不发生，则 B 也不发生。人们只有通过干预事件 A，从而考察 B 的结果，才能探测 A 与 B 是否存在着因果关系。

+

随着近年来[[因果科学]]得到了进一步的发展，使得人们可以用数学框架来量化因果，[[因果]]描述的是一个动力学过程的[[因果效应]]<ref name=":14">Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref name=":8">Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref name=":8" />利用[[概率图模型]]来描述因果相互作用。Pearl用不同的模型来区分并量化了三个层次的因果关系，这里我们比较关注[[因果阶梯]]中的第二层：对输入分布做[[干预]]。此外，由于发现的因果关系背后的不确定性和模糊性，测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括[[休谟]]的[[恒定连接概念]]<ref>Spirtes, P.; Glymour, C.; Scheines, R. Causation Prediction and Search, 2nd ed.; MIT Press: Cambridge, MA, USA, 2000.</ref>和基于值函数的方法<ref>Chickering, D.M. Learning equivalence classes of Bayesian-network structures. J. Mach. Learn. Res. 2002, 2, 445–498.</ref>，Eells和Suppes的概率性因果度量<ref>Eells, E. Probabilistic Causality; Cambridge University Press: Cambridge, UK, 1991; Volume 1</ref><ref>Suppes, P. A probabilistic theory of causality. Br. J. Philos. Sci. 1973, 24, 409–410.</ref>，以及Judea Pearl的[[因果度量]]指标等<ref name=":14" />。

+

====因果涌现====

如前所述，涌现和因果是相互联系的。具体来说，联系存在于以下方面：一方面，涌现可以理解为因果效应的一种，刻画了[[复杂系统 Complex Systems|复杂系统]]中各组成部分之间复杂的[[非线性相互作用]]；另一方面，涌现出的特性也会对复杂系统中的单个个体产生因果作用。此外，以往人们习惯于将宏观因素归因为微观因素的影响，但是宏观涌现出来的模式，往往无法找到微观的归因，所以也就无法找到对应的原因。由此可见，涌现与因果存在着深刻的联系。再者，虽然我们有了对[[涌现]]的定性分类，然而却无法定量的刻画涌现的发生。因此，我们可以借助因果来定量刻画涌现的发生。

−

2013年，美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量，提出了因果涌现这一概念，并且使用[[有效信息]]（Effective ~~Information，简称EI）来量化系统动力学的因果性强弱~~<ref name=":0" /><ref name=":1" />。因果涌现可以描述为：当一个系统在宏观尺度相较其在微观尺度上具有更强的因果效应的时候，就产生了因果涌现。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系，同时把[[人工智能]]中的因果和复杂系统中的涌现这两个核心概念结合起来，因果涌现也为学者回答一系列的哲学问题提供了一个定量化的视角。比如，可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果特性。这里的自上而下因果指的是[[向下因果]]（downward causation）<ref name=":2" />，表示存在宏观到微观的因果效应。例如，壁虎断尾现象，当遇到危险时，壁虎不管自己的尾巴怎样，直接将它断掉。这里整体是因，尾巴是果，那么就存在一个整体指向部分的[[因果力]]。

+

2013年，美国理论神经生物学家 [[Erik hoel|Erik Hoel]] 尝试将因果引入涌现的衡量，提出了因果涌现这一概念，并且使用[[有效信息]]（Effective Information，简称 EI）来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现可以描述为：当一个系统在宏观尺度相较其在微观尺度上具有更强的因果效应的时候，就产生了因果涌现。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系，同时把[[人工智能]]中的因果和复杂系统中的涌现这两个核心概念结合起来，因果涌现也为学者回答一系列的哲学问题提供了一个定量化的视角。比如，可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果特性。这里的自上而下因果指的是[[向下因果]]（downward causation）<ref name=":2" />，表示存在宏观到微观的因果效应。例如，壁虎断尾现象，当遇到危险时，壁虎不管自己的尾巴怎样，直接将它断掉。这里整体是因，尾巴是果，那么就存在一个整体指向部分的[[因果力]]。

+

===早期量化涌现工作===

−

~~早期已经有一些相关的工作尝试对涌现进行定量的分析。Crutchfield等~~<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的[[计算力学]]理论考虑了[[因果态]]~~，该方法是在状态空间划分的基础上展开相关概念讨论的，与Erik Hoel的因果涌现理论存在着很大的相似性。而Seth等人则提出了G~~-~~emergence理论~~<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用[[格兰杰因果关系]]来量化涌现。

+

早期已经有一些相关的工作尝试对涌现进行定量的分析。Crutchfield 等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的[[计算力学]]理论考虑了[[因果态]]，该方法是在状态空间划分的基础上展开相关概念讨论的，与 Erik Hoel 的因果涌现理论存在着很大的相似性。而 Seth 等人则提出了 G-emergence 理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用[[格兰杰因果关系]]来量化涌现。

+

====计算力学====

第37行：第46行：

计算力学将任意的子集 <math>R \in \mathcal{R}</math> 看作是一个宏观状态。对于一组宏观状态集合 <math>\mathcal{R}</math>，计算力学使用香农熵定义了指标 <math>C_\mu</math>，用来衡量这组状态的统计复杂性。其中:

−

<math>

C_\mu(\mathcal{R})\triangleq -\sum_{\rho\in \mathcal{R}} P(\mathcal{R}=\rho)\log_2 P(\mathcal{R}=\rho)

</math>

−

可以证明，当使用一组状态构建预测模型时，这组状态的统计复杂性就近似等价于预测模型的大小。

第56行：第63行： −

~~虽然原始的计算力学没有给出涌现的明确定义和定量理论，但是随后一些研究人员进一步推进了该理论的发展，Shalizi等~~<ref name="The_calculi_of_emergence"></ref>在自己的工作中讨论了计算力学与涌现的关系，如果过程<math>{\overleftarrow{s}}'</math>比过程<math>\overleftarrow{s}</math>具有更高的预测效率，那么过程<math>{\overleftarrow{s}}'</math>发生了涌现，其中一个过程的预测效率<math>e</math>被定义为其过剩熵与其统计复杂度之比（<math>e=\frac{E}{C_{\mu}}</math>），<math>e</math>~~是一个介于0到1之间的实数，我们可以把它看作是存储在过程中的历史记忆的一部分。在两种情况下，~~<math>C_{\mu}=0</math>，一种是这个过程是完全统一和确定的；另一种是它是独立同分布的，在这两种情况下都不可能有任何有趣的预测，所以我们设<math>e=0</math>。同时作者解释说，涌现可以被理解为一个动力学过程，在这个过程中，一个模式获得了能适应不同环境的能力。

+

虽然原始的计算力学没有给出涌现的明确定义和定量理论，但是随后一些研究人员进一步推进了该理论的发展，Shalizi 等<ref name="The_calculi_of_emergence"></ref>在自己的工作中讨论了计算力学与涌现的关系，如果过程 <math>{\overleftarrow{s}}'</math> 比过程 <math>\overleftarrow{s}</math> 具有更高的预测效率，那么过程 <math>{\overleftarrow{s}}'</math> 发生了涌现，其中一个过程的预测效率 <math>e</math> 被定义为其过剩熵与其统计复杂度之比（<math>e=\frac{E}{C_{\mu}}</math>），<math>e</math> 是一个介于 0 到 1 之间的实数，我们可以把它看作是存储在过程中的历史记忆的一部分。在两种情况下，<math>C_{\mu}=0</math>，一种是这个过程是完全统一和确定的；另一种是它是独立同分布的，在这两种情况下都不可能有任何有趣的预测，所以我们设 <math>e=0</math>。同时作者解释说，涌现可以被理解为一个动力学过程，在这个过程中，一个模式获得了能适应不同环境的能力。

−

因果涌现框架与计算力学存在很多相似之处，所有历史过程<math>\overleftarrow{s}</math>可以看作是微观状态，所有<math>R \in \mathcal{R} </math>对应宏观状态，函数<math>\eta </math>可以理解为一种可能的粗粒化函数，因果态<math>\epsilon \left ( \overleftarrow{s} \right )</math>是一种特殊状态，它至少可以与微观状态<math>\overleftarrow{s}</math>具有相同的预测能力，因此，<math>\epsilon </math>可以理解为一种有效的[[粗粒化]]策略，因果转移<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性，在因果涌现中可以用[[有效信息]]衡量。

+

因果涌现框架与计算力学存在很多相似之处，所有历史过程 <math>\overleftarrow{s}</math> 可以看作是微观状态，所有 <math>R \in \mathcal{R} </math> 对应宏观状态，函数 <math>\eta </math> 可以理解为一种可能的粗粒化函数，因果态 <math>\epsilon \left ( \overleftarrow{s} \right )</math> 是一种特殊状态，它至少可以与微观状态 <math>\overleftarrow{s}</math> 具有相同的预测能力，因此，<math>\epsilon </math> 可以理解为一种有效的[[粗粒化]]策略，因果转移 <math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性，在因果涌现中可以用[[有效信息]]衡量。

第80行：第87行：

====其他定量刻画涌现的理论====

−

此外，也存在一些其他的涌现定量理论，主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解[[涌现]]，Moez Mnif ~~和Christian~~ Müller-Schloer<ref>Mnif, M.; Müller-Schloer, C. Quantitative emergence. In Organic Computing—A Paradigm Shift for Complex Systems; Springer: Basel, Switzerland, 2011; pp. 39–52. </ref>使用[[香农熵]]来度量有序和无序。在[[自组织]]过程中，当秩序增加时就会出现涌现，通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加。然而，该方法存在的缺陷是：它依赖于抽象的观察水平以及系统的初始条件。为了克服这两种困难，作者提出了一种与最大熵分布相比的度量方法。受 Moez mif 和 Christian Müller-Schloer 工作的启发，参考文献<ref>Fisch, D.; Jänicke, M.; Sick, B.; Müller-Schloer, C. Quantitative emergence–A refined approach based on divergence measures. In Proceedings of the 2010 Fourth IEEE International Conference on Self-Adaptive and Self-Organizing Systems, Budapest, Hungary, 27 September–1 October 2010; IEEE Computer Society: Washington, DC, USA, 2010; pp. 94–103. </ref>建议使用两个概率分布之间的散度来量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题，文献<ref>Fisch, D.; Fisch, D.; Jänicke, M.; Kalkowski, E.; Sick, B. Techniques for knowledge acquisition in dynamically changing environments. ACM Trans. Auton. Adapt. Syst. (TAAS) 2012, 7, 1–25. [CrossRef] </ref>进一步提出了一种使用[[高斯混合模型]]估计密度的近似方法，并引入[[马氏距离]]来表征数据与高斯分量之间的差异，从而得到了更好的结果。此外，Holzer 和 de Meer 等人<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref><ref>Holzer, R.; de Meer, H. Methods for approximations of quantitative measures in self-organizing systems. In Proceedings of the Self-Organizing Systems: 5th International Workshop, IWSOS 2011, Karlsruhe, Germany, 23–24 February 2011; Proceedings 5; Springer: Berlin/Heidelberg, Germany, 2011; pp. 1–15.</ref>提出了另一种基于香农熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程，在这个过程中，不同的个体通过通信相互作用。然后，我们可以根据代理之间所有通信的香农熵度量与作为单独源的香农熵总和之间的比率来测量涌现。

+

此外，也存在一些其他的涌现定量理论，主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解[[涌现]]，Moez Mnif 和 Christian Müller-Schloer<ref>Mnif, M.; Müller-Schloer, C. Quantitative emergence. In Organic Computing—A Paradigm Shift for Complex Systems; Springer: Basel, Switzerland, 2011; pp. 39–52. </ref>使用[[香农熵]]来度量有序和无序。在[[自组织]]过程中，当秩序增加时就会出现涌现，通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加。然而，该方法存在的缺陷是：它依赖于抽象的观察水平以及系统的初始条件。为了克服这两种困难，作者提出了一种与最大熵分布相比的度量方法。受 Moez mif 和 Christian Müller-Schloer 工作的启发，参考文献<ref>Fisch, D.; Jänicke, M.; Sick, B.; Müller-Schloer, C. Quantitative emergence–A refined approach based on divergence measures. In Proceedings of the 2010 Fourth IEEE International Conference on Self-Adaptive and Self-Organizing Systems, Budapest, Hungary, 27 September–1 October 2010; IEEE Computer Society: Washington, DC, USA, 2010; pp. 94–103. </ref>建议使用两个概率分布之间的散度来量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题，文献<ref>Fisch, D.; Fisch, D.; Jänicke, M.; Kalkowski, E.; Sick, B. Techniques for knowledge acquisition in dynamically changing environments. ACM Trans. Auton. Adapt. Syst. (TAAS) 2012, 7, 1–25. [CrossRef] </ref>进一步提出了一种使用[[高斯混合模型]]估计密度的近似方法，并引入[[马氏距离]]来表征数据与高斯分量之间的差异，从而得到了更好的结果。此外，Holzer 和 de Meer 等人<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref><ref>Holzer, R.; de Meer, H. Methods for approximations of quantitative measures in self-organizing systems. In Proceedings of the Self-Organizing Systems: 5th International Workshop, IWSOS 2011, Karlsruhe, Germany, 23–24 February 2011; Proceedings 5; Springer: Berlin/Heidelberg, Germany, 2011; pp. 1–15.</ref>提出了另一种基于香农熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程，在这个过程中，不同的个体通过通信相互作用。然后，我们可以根据代理之间所有通信的香农熵度量与作为单独源的香农熵总和之间的比率来测量涌现。

另一种方法是从“整体大于部分之和”的角度来理解涌现的<ref>Teo, Y.M.; Luong, B.L.; Szabo, C. Formalization of emergence in multi-agent systems. In Proceedings of the 1st ACM SIGSIM Conference on Principles of Advanced Discrete Simulation, Montreal, QC, Canada, 19–22 May 2013; pp. 231–240. </ref><ref>Szabo, C.; Teo, Y.M. Formalization of weak emergence in multiagent systems. ACM Trans. Model. Comput. Simul. (TOMACS) 2015, 26, 1–25. [CrossRef] </ref>，该方法从交互规则和主体的状态来定义涌现，而不是从整个系统的总体来进行统计度量。具体地说，这个度量需要使两项相减。第一项描述了整个系统的集体状态，而第二项代表了所有组成部分的单个状态的总和。该度量强调涌现产生于系统的相互作用和集体行为。

+

===基于有效信息的因果涌现理论===

−

历史上，第一个比较完整而明确的利用因果来定义涌现的定量理论当属[[Erik Hoel]], [[Larissa Albantakis]]以及[[Giulio Tononi]]三人提出的因果涌现理论<ref name=":0" /><ref name=":1" />。该理论针对[[马尔科夫链]]定义所谓的因果涌现为：粗粒化后的马尔科夫链比原始的马尔科夫链具有更大的因果效应强度的现象。这里，因果效应强度是通过[[有效信息]]来衡量的，该指标是对[[互信息]]指标的一种改造，主要差别是将<math>t</math>时刻的状态变量进行了[[do干预]]，干预成了[[均匀分布]]（或[[最大熵分布]]）。[[有效信息]]指标早在2003年就被[[Giulio Tononi]]在研究[[整合信息论]]的时候提出，作为[[Giulio Tononi]]的学生[[Erik Hoel]]将有效信息应用到马尔科夫链中，提出了基于有效信息的因果涌现理论。

+

历史上，第一个比较完整而明确的利用因果来定义涌现的定量理论当属 [[Erik Hoel]], [[Larissa Albantakis]] 以及 [[Giulio Tononi]] 三人提出的因果涌现理论<ref name=":0" /><ref name=":1" />。该理论针对[[马尔科夫链]]定义所谓的因果涌现为：粗粒化后的马尔科夫链比原始的马尔科夫链具有更大的因果效应强度的现象。这里，因果效应强度是通过[[有效信息]]来衡量的，该指标是对[[互信息]]指标的一种改造，主要差别是将<math>t</math>时刻的状态变量进行了[[do干预]]，干预成了[[均匀分布]]（或[[最大熵分布]]）。[[有效信息]]指标早在2003年就被 [[Giulio Tononi]] 在研究[[整合信息论]]的时候提出，作为 [[Giulio Tononi]] 的学生 [[Erik Hoel]] 将有效信息应用到马尔科夫链中，提出了基于有效信息的因果涌现理论。

+

===基于信息分解的因果涌现理论===

−

~~此外，2020年，Rosas等~~<ref name=":5" />从[[信息论|信息理论]]视角出发，提出一种基于[[信息分解]]的方法来定义系统中的因果涌现，基于[[协同信息]]或者[[冗余信息]]来定量的刻画涌现。所谓的[[信息分解]]是分析[[复杂系统]]中各个变量复杂相互关系的一种新方法，通过对信息进行分解，用信息原子来表示每个部分信息，同时借助[[信息晶格图]]将每个部分信息投射到[[信息原子]]~~中，其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在Williams和Beer等~~<ref name=":16">Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的[[多元信息非负分解]]理论的基础之上，文中使用[[部分信息分解]]（PID）将微观态和宏观态的互信息进行分解。然而，PID框架只能分解关于多个源变量和一个目标变量之间的互信息，Rosas扩展了该框架，提出整合信息分解方法<math>\Phi ID </math><ref name=":18">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个源变量和多个目标变量之间的互信息，作者基于分解后的信息提出了两种因果涌现的定义方法。

+

此外，2020 年，Rosas 等<ref name=":5" />从[[信息论|信息理论]]视角出发，提出一种基于[[信息分解]]的方法来定义系统中的因果涌现，基于[[协同信息]]或者[[冗余信息]]来定量的刻画涌现。所谓的[[信息分解]]是分析[[复杂系统]]中各个变量复杂相互关系的一种新方法，通过对信息进行分解，用信息原子来表示每个部分信息，同时借助[[信息晶格图]]将每个部分信息投射到[[信息原子]]中，其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在 Williams 和 Beer 等<ref name=":16">Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的[[多元信息非负分解]]理论的基础之上，文中使用[[部分信息分解]]（PID）将微观态和宏观态的互信息进行分解。然而，PID框架只能分解关于多个源变量和一个目标变量之间的互信息，Rosas 扩展了该框架，提出整合信息分解方法<math>\Phi ID </math><ref name=":18">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个源变量和多个目标变量之间的互信息，作者基于分解后的信息提出了两种因果涌现的定义方法。

===近期工作===

−

~~Barnett等~~<ref name=":6">Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.</ref>~~人基于~~[[转移熵]]，通过判断宏观动力学与微观动力学进行解耦来判断涌现的发生，因而提出了[[动力学解耦]]的概念。也就是，将涌现刻画为，宏观的变量与微观的变量相互独立，没有因果关系，这也可以看做是一种因果涌现现象。

+

Barnett 等人<ref name=":6">Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.</ref>基于[[转移熵]]，通过判断宏观动力学与微观动力学进行解耦来判断涌现的发生，因而提出了[[动力学解耦]]的概念。也就是，将涌现刻画为，宏观的变量与微观的变量相互独立，没有因果关系，这也可以看做是一种因果涌现现象。

+

2024 年，[[张江]]等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于[[奇异值分解]]，提出了一套新的因果涌现理论。该理论的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵，通过对它进行奇异值分解，将奇异值的 <math>\alpha</math> 次方的和定义为马尔科夫动力学的[[可逆性]]度量（<math>\Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha}</math>），这里 [math]\sigma_i[/math] 为奇异值。该指标与[[有效信息]]具有高度的相关性，也可以用于刻画动力学的因果效应强度。根据奇异值的谱，该方法可以在不显式定义粗粒化方案的条件下，直接定义所谓'''清晰涌现'''（clear emergence）和'''模糊涌现'''（vague emergence）的概念。

−

2024年，[[张江]]等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于[[奇异值分解]]，提出了一套新的因果涌现理论。该理论的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵，通过对它进行奇异值分解，将奇异值的<math>\alpha</math>次方的和定义为马尔科夫动力学的[[可逆性]]度量（<math>\Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha}</math>），这里[math]\sigma_i[/math]为奇异值。该指标与[[有效信息]]具有高度的相关性，也可以用于刻画动力学的因果效应强度。根据奇异值的谱，该方法可以在不显式定义粗粒化方案的条件下，直接定义所谓'''清晰涌现'''（clear emergence）和'''模糊涌现'''（vague emergence）的概念。

==因果涌现的量化==

第111行：第122行：

=====有效信息=====

[[有效信息]]（<math> EI </math>）最早由[[Tononi]]等人在[[整合信息论]]的研究中提出<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>。在因果涌现研究中，[[Erik Hoel]]等人将这种[[因果效应度量]]指标用于量化一个[[因果机制]]的因果性强弱。

+

具体来说，<math> EI </math> 的计算为：使用干预操作对自变量做[[干预]]，并考察在这一干预下，因和果变量之间的[[互信息]]，这种互信息就是[[有效信息]]，即因果机制的因果效应度量。

+

在[[马尔科夫链]]中，任意时刻的状态变量 [math]X_t[/math] 都可以看作是原因，而下一时刻的状态变量 [math]X_{t+1}[/math] 就可以看作是结果，这样[[马尔科夫链]]的[[状态转移矩阵]]就是它的[[因果机制]]。因此，针对[[马尔科夫链]]的 <math>EI</math> 的计算公式如下所示：

第124行：第137行：

其中 <math>f</math> 表示一个马尔科夫链的状态转移矩阵，[math]U(\mathcal{X})[/math] 表示状态变量 [math]X_t[/math] 取值空间 [math]\mathcal{X}[/math] 上的均匀分布。<math>\tilde{X}_t,\tilde{X}_{t+1}</math> 分别为把 <math>t</math> 时刻的[math]X_t[/math][[干预]]为[[均匀分布]]后，前后两个时刻的状态。<math>p_{ij}</math> 为第 <math>i</math> 个状态转移到第 <math>j</math> 个状态的转移概率。从这个式子不难看出，<math> EI </math> 仅仅是概率转移矩阵 [math]f[/math] 的函数。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。

+

有效信息可以拆解为'''确定性'''和'''简并性'''两部分，还可以通过引入归一化从而消除状态空间规模大小的影响。关于有效信息的详细信息请参看词条：[[有效信息]]。

+

=====因果涌现度量=====

第135行：第150行：

其中 <math>CE</math> 为因果涌现强度。如果宏观动力学的有效信息大于微观动力学的有效信息（也就是 <math>CE>0</math>），那么我们认为在该粗粒化基础上宏观动力学具有因果涌现特性。

+

=====马尔科夫链实例=====

+

在文献<ref name=":0"/>中，Hoel 给出一个含有 8 个状态的马尔科夫链的状态转移矩阵([math]f_m[/math])的例子，如下面左图所示。其中前7个状态之间等概率转移，最后一个状态是独立的，只能转变为自身的状态。

−

在文献<ref name=":0"/>中，Hoel 给出一个含有 8 个状态的马尔科夫链的状态转移矩阵([math]f_m[/math])的例子，如下面左图所示。其中前7个状态之间等概率转移，最后一个状态是独立的，只能转变为自身的状态。

对该矩阵的粗粒化为如下操作：首先，将前 7 个状态归并为一个宏观状态，不妨称为 A，并且将 [math]f_m[/math] 中前 7 行的前 7 列的概率数值加总再除以 7，从而得到宏观态 A 到 A 的状态转移概率，并对 [math]f_m[/math] 矩阵的其它数值保持不变。这样归并后的新的概率转移矩阵如右图所示，记为 [math]f_M[/math] 。这是一个确定的宏观马尔科夫转移矩阵，即系统的未来状态完全可以由当前状态决定。此时 <math>EI(f_M\ )>EI(f_m\ ) </math>，系统发生了因果涌现。

第145行：第161行：

然而，对于更一般的马尔科夫链和更一般的状态分组，这种简单的将概率平均化的操作并不都是可行的，这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件（如矩阵的行并不满足归一化条件，或元素数值超出 [0,1] 区间范围）。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链，请参考本词条后面的'''马尔科夫链的约简'''一节，或参看[[马尔科夫链的粗粒化]]这一词条。

+

=====布尔网络实例=====

+

另一个文献<ref name=":0"/>中的例子是一个[[布尔网络]]中发生因果涌现的例子。如图所示，这是一个含有 4 个节点的布尔网络，每个节点有 0 和 1 两种状态，每个节点与另外两个节点相连，遵循相同的微观动力学机制（a图）。因此，该系统一共含有十六个微观状态，它的动力学可以用一个 <math>16\times16 </math> 的状态转移矩阵（c图）表示。

−

另一个文献<ref name=":0"/>中的例子是一个[[布尔网络]]中发生因果涌现的例子。如图所示，这是一个含有 4 个节点的布尔网络，每个节点有 0 和 1 两种状态，每个节点与另外两个节点相连，遵循相同的微观动力学机制（a图）。因此，该系统一共含有十六个微观状态，它的动力学可以用一个 <math>16\times16 </math> 的状态转移矩阵（c图）表示。

对该系统的粗粒化操作分为两步，第一步是对布尔网络中的节点进行聚类，如下图b所示，将A和B进行合并得到宏观节点 [math]\alpha[/math]，C 和 D 进行合并得到宏观节点 [math]\beta[/math]；第二步，将每一个分组中的微观节点状态映射为归并后的宏观节点状态，这一映射函数如下图d所示，其中所有包含 0 的微观节点状态都转变为宏观节点的off状态，而微观的 11 状态转变为宏观的 on 状态。这样，我们可以得到一个新的宏观的布尔网络，并根据微观节点的动力学机制得到宏观布尔网络的动力学机制，根据这个机制就可以得到宏观网络的状态转移矩阵（如e图所示）。

+

通过对比，我们发现宏观动力学的[[有效信息]]大于微观动力学的[[有效信息]]（<math>EI(f_M\ )>EI(f_m\ ) </math>），该系统发生了因果涌现。

第157行：第175行：

=====连续变量中的因果涌现=====

+

进一步，在<ref name="Chvykov_causal_geometry">{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>一文中，Hoel 等人提出了[[因果几何]]理论框架，试图将因果涌现理论推广到具有连续状态的函数映射与动力系统之中，该文章对[[随机函数映射]]定义了 <math>EI</math>，同时还引入了干预噪音和[[因果几何]]的概念，并将这一概念与[[信息几何]]进行了对照和类比。[[刘凯威]]等人<ref name="An_exact_theory_of_causal_emergence">{{cite journal|author1=Liu K|author2=Yuan B|author3=Zhang J|title=An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems|journal=Entropy|year=2024|volume=26|issue=8|page=618|url=https://arxiv.org/abs/2405.09207}}</ref>又进一步给出了[[随机迭代动力系统]]的精确解析的因果涌现理论。

−

进一步，在<ref name="Chvykov_causal_geometry">{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>一文中，Hoel等人提出了[[因果几何]]理论框架，试图将因果涌现理论推广到具有连续状态的函数映射与动力系统之中，该文章对[[随机函数映射]]定义了 <math>EI</math>，同时还引入了干预噪音和[[因果几何]]的概念，并将这一概念与[[信息几何]]进行了对照和类比。[[刘凯威]]等人<ref name="An_exact_theory_of_causal_emergence">{{cite journal|author1=Liu K|author2=Yuan B|author3=Zhang J|title=An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems|journal=Entropy|year=2024|volume=26|issue=8|page=618|url=https://arxiv.org/abs/2405.09207}}</ref>又进一步给出了[[随机迭代动力系统]]的精确解析的因果涌现理论。

====Rosas的因果涌现理论====

−

~~Rosas等~~<ref name=":5" />从[[信息分解]]理论的视角出发，提出一种基于[[整合信息分解]]定义因果涌现的方法，并将因果涌现进一步区分为：[[因果解耦]]（Causal Decoupling）和[[向下因果]]（Downward Causation）两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应，向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示，其中微观状态输入为 <math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>，宏观状态是 <math>V_t </math>，它由微观态变量 <math>X_t </math> 粗粒化而来，因而是 <math>X_t </math> 的随附特征（Supervenience），<math>X_{t+1} </math> 和 <math>V_{t+1} </math> 分别表示下一时刻的微观和宏观状态。

+

Rosas 等<ref name=":5" />从[[信息分解]]理论的视角出发，提出一种基于[[整合信息分解]]定义因果涌现的方法，并将因果涌现进一步区分为：[[因果解耦]]（Causal Decoupling）和[[向下因果]]（Downward Causation）两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应，向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示，其中微观状态输入为 <math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>，宏观状态是 <math>V_t </math>，它由微观态变量 <math>X_t </math> 粗粒化而来，因而是 <math>X_t </math> 的随附特征（Supervenience），<math>X_{t+1} </math> 和 <math>V_{t+1} </math> 分别表示下一时刻的微观和宏观状态。

[[文件:向下因果与因果解耦2.png|居左|300x300像素|因果解耦与向下因果]]

=====部分信息分解=====

+

该方法建立在Williams和Beer等<ref name=":16" />提出的[[多元信息非负分解]]理论的基础之上，该文使用[[部分信息分解]]（PID）将微观态和宏观态的互信息进行分解。

−

该方法建立在Williams和Beer等<ref name=":16" />提出的[[多元信息非负分解]]理论的基础之上，该文使用[[部分信息分解]]（PID）将微观态和宏观态的互信息进行分解。

不失一般性，假设我们的微观态为 <math>X(X^1,X^2) </math>，即它是一个二维的变量，宏观态为 <math>V </math>，则二者之间的[[互信息]]可以被分解为四个部分：

第174行：第192行：

其中 <math>Red(X^1,X^2;V) </math> 表示[[冗余信息]]，是指两个微观态 <math>X^1 </math> 和 <math>X^2 </math> 重复地给宏观态 <math>V </math> 提供的信息；<math>Un(X^1;V│X^2 ) </math> 和 <math>Un(X^2;V│X^1 ) </math> 表示[[特有信息]]，是指每一个微观态变量单独给宏观态提供的信息；<math>Syn(X^1,X^2;V) </math> 表示[[协同信息]]，是指所有微观态 <math>X </math> 联合在一起给宏观态 <math>V </math> 提供的信息。

+

=====因果涌现定义=====

+

然而，PID 框架只能分解关于多个源变量和一个目标变量之间的互信息，Rosas扩展了该框架，提出整合信息分解方法 <math>\Phi ID </math><ref name=":18" />来处理多个源变量和多个目标变量之间的互信息，还可以用来分解不同时刻间的互信息，作者基于分解后的信息提出了两种因果涌现的定义方法：

−

~~然而，PID框架只能分解关于多个源变量和一个目标变量之间的互信息，Rosas扩展了该框架，提出整合信息分解方法~~ <math>\~~Phi ID~~ </math><~~ref name=":18"~~ />~~来处理多个源变量和多个目标变量之间的互信息，还可以用来分解不同时刻间的互信息，作者基于分解后的信息提出了两种因果涌现的定义方法：~~

+

1）当[[特有信息]] <math>Un(V_t;X_{t+1}| X_t^1,\ldots,X_t^n\ )>0 </math>，表示当前时刻的宏观态 <math>V_t </math> 能超过当前时刻的微观态 <math>X_t </math> 给下一时刻的整体系统 <math>X_{t+1} </math> 提供更多信息，这时候系统存在着因果涌现；

−

1）当[[特有信息]] <math>Un(V_t;X_{t+1}| X_t^1,\ldots,X_t^n\ )>0 </math>，表示当前时刻的宏观态 <math>V_t </math> 能超过当前时刻的微观态 <math>X_t </math> 给下一时刻的整体系统 <math>X_{t+1} </math> 提供更多信息，这时候系统存在着因果涌现；

2）第二种方法绕开了选择特定的宏观态 <math>V_t </math>，仅仅基于系统当前时刻的微观态 <math>X_t </math> 和下一时刻的微观态 <math>X_{t+1} </math> 之间的[[协同信息]]定义因果涌现，当协同信息 <math>Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )>0 </math>，系统发生了因果涌现。

+

值得注意的是，对于方法一判断因果涌现的发生需要依赖宏观态 <math>V_t </math> 的选择，其中方法一是方法二的下界。这是因为，<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math> 衡成立。所以，如果 <math>Un(V_t;X_{t+1}| X_t\ )</math> 大于0，则系统出现因果涌现。然而 <math>V_t </math> 的选择往往需要预先定义粗粒化函数，因此无法回避[[Erik Hoel因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生，但是协同信息的计算是非常困难的，存在着组合爆炸问题。因此，第二种方法基于协同信息的计算往往也是不可行的。总之，这两种因果涌现的定量刻画方法都存在一些弱点，因此，有待提出更加合理的量化方法。

+

=====具体实例=====

第190行：第211行：

文<ref name=":5" />中作者列举了一个具体的例子(如上式），来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。该例子是一个特殊的马尔科夫过程，这里， <math>p_{X_{t+1}|X_t}(x_{t+1}|x_t)</math> 表示动力学关系，<math>X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n </math> 为微观态。该过程的定义是通过检查前后两个时刻的变量 [math]x_t[/math] 和 [math]x_{t+1}[/math] 的取值，也就是判断 [math]x_t[/math] 的所有维度加和模2是否与 [math]x_{t+1}[/math] 的第一个维度相同来确定下一时刻状态 [math]x_{t+1}[/math] 取不同数值概率的：如果不同，则概率取 0；否则再判断 [math]x_t,x_{t+1}[/math] 在所有维度上是否都有相同的加和模 2 值，如果两个条件都满足，则取值概率为 [math]\gamma/2^{n-2}[/math]，否则取值概率为 [math](1-\gamma)/2^{n-2}[/math]。这里 [math]\gamma[/math] 为一个参数， [math]n[/math] 为x的总维度。

+

实际上，如果 <math>\sum_{j=1}^n x^j_t</math> 是偶数或者 0 时 <math>\oplus^n_{j=1} x^j_t:=1</math>，反之 <math>\oplus^n_{j=1} x^j_t:=0</math>，因此 <math>\oplus^n_{j=1} x^j_t</math> 的结果是 X 整体序列的奇偶性，而第一个维度则可以看作是一个奇偶校验位。<math>\gamma</math> 实际上表示 X 序列某两个位产生了突变，并且该突变却能够保证整体序列的奇偶性不变，以及序列的奇偶校验位也符合序列整体的实际奇偶性的概率。

+

因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性，该奇偶性的概率分布是微观态的异或计算的结果。[math]x_{t+1}^1[/math] 是一个特殊的微观态，它始终与上一时刻序列的宏观态保持一致。因此，当第二个判断条件中只有第一项成立时该系统发生向下因果条件，只有第二项成立时系统发生因果解耦，两项同时成立时则称系统发生因果涌现。

+

====基于奇异值分解的因果涌现理论====

+

[[Erik Hoel的因果涌现理论]]存在着需要事先指定粗粒化策略的问题，Rosas 的信息分解理论并没有完全解决该问题，因此，[[张江]]等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>进一步提出了基于[[奇异值分解的因果涌现理论]]。

−

[[Erik Hoel的因果涌现理论]]存在着需要事先指定粗粒化策略的问题，Rosas的信息分解理论并没有完全解决该问题，因此，[[张江]]等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>进一步提出了基于[[奇异值分解的因果涌现理论]]。

=====马尔科夫链的奇异值分解=====

−

给定一个系统的[[马尔科夫转移矩阵]] <math>P</math>，我们可以对它进行[[奇异值分解]]，得到两个正交且归一化矩阵 <math>U</math> 和 <math>V</math>，和一个对角阵 <math>\Sigma</math>：<math>P= U\Sigma V^T</math>，其中 [math]\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_N)[/math]，其中 [math]\sigma_1\geq\sigma_2\geq\cdots\sigma_N[/math] 为 <math>P</math> 的奇异值，并且按照从大到小的顺序排列，<math>N</math> 为 <math>P</math> 的状态数量。

=====近似动力学可逆性与有效信息=====

−

我们可以将奇异值的<math>\alpha</math> 次方之和（也称为矩阵的 [math]\alpha[/math] 阶[[Schatten范数]]）定义为马尔科夫链的[[近似动力学可逆性]]度量，即：

第212行：第234行：

这里，[math]\alpha\in(0,2)[/math] 为一个指定的参数，它起到让 [math]\Gamma_{\alpha}[/math] 能够更多地反映[[确定性]]还是[[简并性]]这样一种权重或倾向性。通常情况下，我们取 [math]\alpha=1[/math]，这可以让 [math]\Gamma_{\alpha}[/math] 能够在确定性与简并性之间达到一种平衡。

+

此外，文献中作者证明了 <math>EI</math> 与 [math]\Gamma_{\alpha}[/math] 之间存在着一种近似的关系：

第220行：第243行：

而且，在一定程度上可以用 [math]\Gamma_{\alpha}[/math] 替代 EI 对马尔科夫链的因果效应程度进行度量。因此，所谓的因果涌现也可以被理解为一种'''动力学可逆性的涌现'''。

+

=====无需粗粒化的因果涌现量化=====

−

然而，该理论的最大价值在于无需粗粒化策略，就可以直接量化涌现。如果 <math>P</math> 的秩为 <math>r</math>，即从第 <math>r+1</math> 个奇异值开始，奇异值都为 0，则我们称动力学 <math>P</math> 存在着'''清晰的因果涌现'''（Clear Causal Emergence），并且因果涌现的数值为：

第234行：第257行：

总结来看，该定量化因果涌现的方法的好处在于，它可以不依赖于具体的粗粒化策略，因而可以更加客观地量化因果涌现。该方法的缺点是，若要计算 [math]\Gamma_{\alpha}[/math]，需要事先对 <math>P</math> 进行[[SVD分解]]，因而计算复杂度为 [math]O(N^3)[/math]，比 <math>EI</math> 的计算复杂度高。而且，[math]\Gamma_{\alpha}[/math] 不能显式地分解为确定度和简并度两个分量。

+

=====具体实例=====

第240行：第264行：

作者给出了四个具体马尔科夫链的例子，该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的 <math>EI</math> 和[[近似动力学可逆性]]（图中的 <math>\Gamma</math>，即 <math>\Gamma_{\alpha=1}</math>）。对比图a，b，我们发现对于不同的状态转移矩阵，<math>EI</math> 降低的时候，<math>\Gamma</math> 也同步降低。进一步，图c和d是对比粗粒化前后的效果，其中图d是对图c状态转移矩阵的粗粒化（将前三个状态归并为一个宏观态）。由于宏观状态转移矩阵图d是一个[[确定性系统]]，因此，归一化后的 <math>EI</math>，<math>eff\equiv EI/\log N</math> 和归一化后的 [math]\Gamma[/math]：<math>\gamma\equiv \Gamma/N</math> 都达到了最大值 1。

+

====动力学解耦（Dynamic independence）====

[[动力学解耦]]（Dynamic Independence）是一种刻画粗粒化后的宏观动力学状态独立于微观动力学状态的方法<ref name=":6">Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.</ref>，其核心思想是，尽管宏观变量是由微观变量组成，但在预测宏观变量未来状态时，只需要依赖宏观变量历史信息，而不需要微观历史提供额外的信息，这种现象就被作者称为[[动力学解耦]]，它是另一种对涌现进行量化的手段，此时的宏观动力学称为涌现动力学。动力学解耦概念中的独立性、因果依赖性等可以通过[[转移熵]]（Transfer Entropy）进行量化。

+

=====动力学解耦的定量化=====

−

[[转移熵]]是测量两个随机过程之间有向（时间不对称）信息转移量的一种非参数统计量。过程 <math>X</math> 到另一个过程 <math>Y</math> 的转移熵可定义为：在已知 <math>Y</math> 过去值的情况下，了解 <math>X</math> 的过去值所能减少对 <math>Y</math> 未来值不确定性的程度，公式如下所示：

第251行：第276行：

其中，<math>Y_t</math> 表示 <math>t</math> 时刻的宏观变量，<math>X^-_t</math> 和 <math>Y^-_t</math> 分别表示 <math>t</math> 时刻之前的微观和宏观变量。[math]I[/math] 为互信息，[math]H[/math] 为香农熵。当且仅当时间 <math>t</math> 从 <math>X</math> 到 <math>Y</math> 的转移熵 <math>T_t(X \to Y)=0</math> 时，<math>Y</math> 相对于 <math>X</math> 动力学解耦

+

动力学解耦的概念可以被广泛适用于多种复杂动态系统，包括神经系统、经济过程和进化过程。通过粗粒化方法，可以将高维微观系统简化为低维宏观系统，从而揭示出复杂系统中的涌现结构。

+

文中，作者在[[线性系统]]中进行了实验验证，实验流程是：1）使用线性系统生成参数与规律；2）设定粗粒化函数；3)得到转移熵的表达式；4）优化求解最大去耦合的粗粒化方法（对应最小转移熵）。这里的优化算法可以使用转移熵作为优化目标，然后使用[[梯度下降算法]]来求解粗粒化函数，也可以使用[[遗传算法]]来优化。

+

=====实例=====

+

文中举了一个线性动力系统的例子，其动力学是一个向量自回归的模型，通过使用遗传算法对不同的初始条件进行迭代进化，能使得系统的动力学解耦程度也逐渐增加，同时发现不同的粗粒化尺度会影响优化到[[动力学解耦]]的程度，实验发现只有在某些尺度下能达到动力学解耦，而在其他尺度则不行，因此尺度的选择也很重要。

−

文中举了一个线性动力系统的例子，其动力学是一个向量自回归的模型，通过使用遗传算法对不同的初始条件进行迭代进化，能使得系统的动力学解耦程度也逐渐增加，同时发现不同的粗粒化尺度会影响优化到[[动力学解耦]]的程度，实验发现只有在某些尺度下能达到动力学解耦，而在其他尺度则不行，因此尺度的选择也很重要。

===几种因果涌现理论比较===

−

我们可以从是否考虑因果、是否需要指定粗粒化函数，适用的动力学系统以及定量化指标这几个不同的维度，对比上述四种不同的定量化因果涌现理论，得到下表：

第269行：第296行：

!方法!!是否考虑因果!!是否涉及粗粒化!!适用的动力学系统!!度量指标

|-

−

|~~Hoel的因果涌现理论~~<ref name=":0" />||~~动力学因果，EI定义引入了do干预~~||需要指定粗粒化方法||离散马尔科夫动力学||动力学因果：有效信息

+

|Hoel 的因果涌现理论<ref name=":0" />||动力学因果，EI 定义引入了 do 干预||需要指定粗粒化方法||离散马尔科夫动力学||动力学因果：有效信息

|-

−

|~~Rosas的因果涌现理论~~<ref name=":5" />||用互信息刻画的相关性近似||基于协同信息判断时不涉及粗粒化，基于冗余信息计算则需要指定粗粒化方法||任意动力学||信息分解：协同信息或冗余信息

+

|Rosas 的因果涌现理论<ref name=":5" />||用互信息刻画的相关性近似||基于协同信息判断时不涉及粗粒化，基于冗余信息计算则需要指定粗粒化方法||任意动力学||信息分解：协同信息或冗余信息

|-

−

|基于可逆性的因果涌现理论<ref name=":2"/>||~~动力学因果，EI与近似动力学可逆性等价~~||不依赖于具体的粗粒化策略||离散马尔科夫动力学||近似动力学可逆性：<math>\Gamma_{\alpha}</math>

+

|基于可逆性的因果涌现理论<ref name=":2"/>||动力学因果，EI 与近似动力学可逆性等价||不依赖于具体的粗粒化策略||离散马尔科夫动力学||近似动力学可逆性：<math>\Gamma_{\alpha}</math>

|-

|动力学解耦<ref name=":6"/>||格兰杰因果||需要指定粗粒化方法||任意动力学||动力学独立性：转移熵

|}

+

==因果涌现的识别==

前面已经介绍了一些通过因果度量和其他信息论指标来量化涌现的工作。然而，在实际应用中，我们往往只能收集到观测数据，而无法得到系统的真实动力学。因此，从可观测数据中辨别系统是否发生了因果涌现是一个更为重要的问题。下面介绍两种因果涌现的识别方法，包括基于[[Rosas因果涌现]]理论的近似方法(基于互信息近似的方法和基于[[机器学习]]的方法)和我国学者提出的[[神经信息压缩]]（NIS，NIS+）方法。

+

====基于Rosas因果涌现理论的近似方法====

+

[[Rosas的因果涌现理论]]包含了基于[[协同信息]]的量化方法和基于[[特有信息]]的量化方法，其中第二种方法可以绕开多变量的组合爆炸问题，但是依赖粗粒化方法和宏观态变量<math>V</math> 的选择。为了解决这个问题，作者给出了两种解决方案，一种是通过研究者指定一个宏观态 <math>V</math>，另一种是基于机器学习的方法，通过最大化 <math>\mathrm{\Psi} </math>，让系统自动学习到宏观态变量 <math>V</math>。下面我们分别介绍这两种方法:

−

[[Rosas的因果涌现理论]]包含了基于[[协同信息]]的量化方法和基于[[特有信息]]的量化方法，其中第二种方法可以绕开多变量的组合爆炸问题，但是依赖粗粒化方法和宏观态变量<math>V</math>的选择。为了解决这个问题，作者给出了两种解决方案，一种是通过研究者指定一个宏观态<math>V</math>，另一种是基于机器学习的方法，通过最大化<math>\mathrm{\Psi} </math>，让系统自动学习到宏观态变量<math>V</math>。下面我们分别介绍这两种方法:

=====基于互信息近似的方法=====

−

[[Rosas的因果涌现理论]]虽然已经给出了因果涌现的严格定义，但在计算中涉及到很多变量的组合爆炸问题，因此难以将该方法应用于实际系统。为了解决这个问题，Rosas等绕开了特有信息和协同信息的精确计算<ref name=":5" />，而提了一种只需要计算[[互信息]]的近似公式，并推导出一个判定因果涌现发生的充分条件。

+

[[Rosas的因果涌现理论]]虽然已经给出了因果涌现的严格定义，但在计算中涉及到很多变量的组合爆炸问题，因此难以将该方法应用于实际系统。为了解决这个问题，Rosas等绕开了特有信息和协同信息的精确计算 <ref name=":5" />，而提了一种只需要计算[[互信息]]的近似公式，并推导出一个判定因果涌现发生的充分条件。

−

作者们基于[[互信息]]提出了三个新指标，<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>可以分别用于识别系统中的因果涌现、[[因果解耦]]和[[向下因果]]，三种指标的具体计算公式分别如下所示：

+

作者们基于[[互信息]]提出了三个新指标，<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和 <math>\mathrm{\Gamma} </math> 可以分别用于识别系统中的因果涌现、[[因果解耦]]和[[向下因果]]，三种指标的具体计算公式分别如下所示：

* 判断因果涌现的指标：

第295行：第325行：

|{{EquationRef|1}}}}

−

其中<math>X_t^j </math>~~表示第j维t时刻的微观变量，~~<math>V_t ; V_{t+1} </math>~~分别代表两个连续时间的宏观状态变量。Rosas等人定义，当~~<math>\mathrm{\Psi}>0 </math>时，系统发生涌现；但是当<math>\mathrm{\Psi}<0 </math>，我们不能确定<math>V </math>是否发生涌现，这是因为该条件仅仅是因果涌现发生的充分条件。

+

其中 <math>X_t^j </math> 表示第 j 维 t 时刻的微观变量，<math>V_t ; V_{t+1} </math> 分别代表两个连续时间的宏观状态变量。Rosas 等人定义，当 <math>\mathrm{\Psi}>0 </math> 时，系统发生涌现；但是当 <math>\mathrm{\Psi}<0 </math>，我们不能确定 <math>V </math> 是否发生涌现，这是因为该条件仅仅是因果涌现发生的充分条件。

* 判断[[向下因果]]的指标：

第301行：第331行：

<math>\Delta_{t, t+1}(V):=\max _j\left(I\left(V_t ; X_{t+1}^j\right)-\sum_i I\left(X_t^i ; X_{t+1}^j\right)\right) </math>

−

当<math>\mathrm{\Delta}>0 </math>时，宏观状态<math>V </math>对微观变量<math>X</math>存在[[向下因果]]。

+

当 <math>\mathrm{\Delta}>0 </math> 时，宏观状态 <math>V </math> 对微观变量 <math>X</math> 存在[[向下因果]]。

+

* 判断[[因果解耦]]的指标：

第307行：第338行：

<math>\Gamma_{t, t+1}(V):=\max _j I\left(V_t ; X_{t+1}^j\right) </math>

−

当<math>\mathrm{\Delta}>0 </math>且<math>\mathrm{\Gamma}=0 </math>时，系统发生因果涌现且存在[[因果解耦]]。

+

当 <math>\mathrm{\Delta}>0 </math> 且 <math>\mathrm{\Gamma}=0 </math> 时，系统发生因果涌现且存在[[因果解耦]]。

+

−

之所以我们可以使用<math>\mathrm{\Psi} </math>来识别因果涌现的发生，是因为<math>\mathrm{\Psi} </math>又是特有信息的下界，我们有如下关系：

+

之所以我们可以使用 <math>\mathrm{\Psi} </math> 来识别因果涌现的发生，是因为 <math>\mathrm{\Psi} </math> 又是特有信息的下界，我们有如下关系：

<math>Un(V_t;X_{t+1}|X_t) ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>

−

由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数，所以我们可以据此提出一个充分非必要条件：当<math>\Psi_{t, t+1}(V) > 0 </math>。

+

由于 <math>Red(V_t, V_{t+1};X_t) </math> 为非负数，所以我们可以据此提出一个充分非必要条件：当 <math>\Psi_{t, t+1}(V) > 0 </math>。

−

总结来看，该方法因为是基于互信息的，所以计算比较方便，且对系统的动力学没有马尔科夫性的假设和要求。但是，该理论也存在很多缺点：1）该方法提出的三个指标：<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于[[互信息]]的计算而没有考虑因果；2）该方法得到的仅仅是发生因果涌现的充分条件；3）该方法依赖宏观变量的选择，而不同的选择会对结果造成不同的显著影响；4）当系统具有大量冗余信息，或具有许多变量时，该方法的[[计算复杂度]]就会很高，同时由于<math>\Psi </math>为近似计算，因此这会让高维系统存在非常大的误差，而且还非常容易得到负值，从而无法判断是否有因果涌现发生。

−

为了验证猕猴运动有关的信息是其皮层活动的一个涌现特征，Rosas等做了如下实验：基于猕猴的皮质脑电图（ECoG）作为微观动力学的观测数据。为了得到宏观态变量<math>V</math>，作者们选择了用动作捕捉（MoCap）得到的猕猴肢体运动轨迹的时间序列数据，其中 ECoG 和 MoCap 分别由 64 个通道和 3 个通道的数据构成的。由于最原始的 MoCap 数据不满足随附特征的条件独立假设，因此，他们利用[[偏最小二乘]]和[[支持向量机]]算法，推断出与预测猕猴行为有关的编码在 ECoG 信号中的那部分神经活动，并推测该信息是潜在神经活动的涌现特征。最后，作者们基于微观状态和计算所得的宏观特征，验证了因果涌现的存在。

+

总结来看，该方法因为是基于互信息的，所以计算比较方便，且对系统的动力学没有马尔科夫性的假设和要求。但是，该理论也存在很多缺点：1）该方法提出的三个指标：<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math> 只是基于[[互信息]]的计算而没有考虑因果；2）该方法得到的仅仅是发生因果涌现的充分条件；3）该方法依赖宏观变量的选择，而不同的选择会对结果造成不同的显著影响；4）当系统具有大量冗余信息，或具有许多变量时，该方法的[[计算复杂度]]就会很高，同时由于 <math>\Psi </math> 为近似计算，因此这会让高维系统存在非常大的误差，而且还非常容易得到负值，从而无法判断是否有因果涌现发生。

+

为了验证猕猴运动有关的信息是其皮层活动的一个涌现特征，Rosas 等做了如下实验：基于猕猴的皮质脑电图（ECoG）作为微观动力学的观测数据。为了得到宏观态变量 <math>V</math>，作者们选择了用动作捕捉（MoCap）得到的猕猴肢体运动轨迹的时间序列数据，其中 ECoG 和 MoCap 分别由 64 个通道和 3 个通道的数据构成的。由于最原始的 MoCap 数据不满足随附特征的条件独立假设，因此，他们利用[[偏最小二乘]]和[[支持向量机]]算法，推断出与预测猕猴行为有关的编码在 ECoG 信号中的那部分神经活动，并推测该信息是潜在神经活动的涌现特征。最后，作者们基于微观状态和计算所得的宏观特征，验证了因果涌现的存在。

+

=====基于机器学习的方法=====

+

Kaplanis 等人<ref name=":2" />基于[[表示机器学习]](Representation learning)的理论方法，用算法通过最大化 <math>\mathrm{\Psi} </math>（即公式{{EquationNote|1}}）而自发学习到宏观态变量 <math>V</math> 变量。具体的，作者们使用神经网络 <math>f_{\theta}</math> 来学习将微观输入 <math>X_t</math> 粗粒化成宏观输出 <math>V_t</math> 的表示函数，同时使用神经网络 <math>g_{\phi}</math> 和 <math>h_{\xi}</math> 来分别学习 <math>I(V_t;V_{t+1})</math> 和 <math>\sum_i(I(V_{t+1};X_{t}^i))</math> 等互信息的计算，最后该方法通过最大化两者之间的差(即 <math>\mathrm{\Psi} </math>)来优化神经网络。该神经网络系统的架构图如下图a所示。

−

~~Kaplanis等人<ref name=":2" />基于~~[[~~表示机器学习~~]]~~(Representation learning)的理论方法，用算法通过最大化~~<math>\~~mathrm~~{\~~Psi~~} </math>~~（即公式{{EquationNote|~~1~~}}）而自发学习到宏观态变量~~<math>V</math>~~变量。具体的，作者们使用神经网络~~<math>f_{~~\theta~~}</math>~~来学习将微观输入~~<math>X_t</math>~~粗粒化成宏观输出~~<math>~~V_t~~</math>~~的表示函数，同时使用神经网络~~<math>~~g_{\phi}~~</math>和<math>~~h_{~~\~~xi}~~</math>~~来分别学习~~<math>I(~~V_t;V_~~{t+1})</math>和<math>\~~sum_i(I(V_{t+1};X_~~{t}~~^i))~~</math>~~等互信息的计算，最后该方法通过最大化两者之间的差(即~~<math>\~~mathrm~~{~~\Psi~~} </math>~~)来优化神经网络。该神经网络系统的架构图如下图a所示。~~

+

[[文件:学习因果涌现表征的架构.png|居左|600x600像素|学习因果涌现表征的架构]]

+

图b展示了一个 toy 模型实例，微观输入 <math>X_t(X_t^1,...,X_t^6) \in \left\{0,1\right\}^6</math> 存在 6 个维度，每个维度存在 0 和 1 两种状态，<math>X_{t+1}</math> 是 <math>X_{t}</math> 的下一时刻输出，宏观态为 <math>V_{t}=\oplus_{i=1}^{5}X_t^i</math>，其中 <math>\oplus_{i=1}^{5}X_t^i</math> 表示微观输入 <math>X_t</math> 前 5 个维度加和模 2 的结果，前后两个时刻的宏观态存在 <math>\gamma</math> 概率相等（<math>p(\oplus_{j=1..5}X_{t+1}^j=\oplus_{j=1..5}X_t^j)= \gamma</math>），微观输入的前后两个时刻的第6个维度以 <math>\gamma_{extra}</math> 概率的可能性相等（<math>p(X_{t+1}^6=X_t^6)= \gamma_{extra}</math>）。

−

~~[[文件:学习因果涌现表征的架构.png|居左|600x600像素|学习因果涌现表征的架构]]~~

−

~~图b展示了一个toy模型实例，微观输入~~<math>~~X_t(X_t^1,...,X_t^6)~~ \~~in \left\{0,1\right\}^6</math>存在6个维度，每个维度存在0和1两种状态，<math>X_~~{~~t+1}</math>是<math>X_{t}</math>的下一时刻输出，宏观态为<math>V_{t}=\oplus_{i=1}^{5}X_t^i</math>，其中<math>~~\~~oplus_{i=1~~}~~^{5}X_t^i</math>表示微观输入<math>X_t~~</math>~~前5个维度加和模2的结果，前后两个时刻的宏观态存在~~<math>\~~gamma</math>概率相等（<math>p(\oplus_{j=1..5}X_~~{~~t+1}^j=~~\~~oplus_{j=1..5~~}~~X_t^j)= \gamma~~</math>~~），微观输入的前后两个时刻的第6个维度以~~<math>\~~gamma_~~{~~extra}</math>概率的可能性相等（<math>p(X_{t+1}^6=X_t^6)=~~ \~~gamma_{extra~~}</math>）。

+

结果表明，在图b所示的简单例子中，通过图a构建的模型最大化 <math>\mathrm{\Psi} </math>，实验发现学习出来的 <math>\mathrm{\Psi} </math> 和真实的 groundtruth <math>\mathrm{\Psi} </math> 近似相等验证了模型学习的有效性，该系统能够正确地判断出因果涌现的发生。但是该方法也存在着难以应对复杂多变量情形的问题，这是因为图中的右侧的神经网络数量是正比于宏微观变量对的数量的，因此微观变量数（维度）越多，则神经网络的数量就会成比例增长，这会导致计算复杂度的提升。此外，该方法仅在很少的案例上进行测试，因此尚无法规模化。最后，更主要的是，因为网络计算的是因果涌现的近似指标，且得到的是涌现的充分非必要条件，所以上述近似算法的各种弊端会被此方法继承。

−

结果表明，在图(b)所示的简单例子中，通过图a构建的模型最大化<math>\mathrm{\Psi} </math>，实验发现学习出来的<math>\mathrm{\Psi} </math>和真实的groundtruth<math>\mathrm{\Psi} </math>近似相等验证了模型学习的有效性，该系统能够正确地判断出因果涌现的发生。但是该方法也存在着难以应对复杂多变量情形的问题，这是因为图中的右侧的神经网络数量是正比于宏微观变量对的数量的，因此微观变量数（维度）越多，则神经网络的数量就会成比例增长，这会导致计算复杂度的提升。此外，该方法仅在很少的案例上进行测试，因此尚无法规模化。最后，更主要的是，因为网络计算的是因果涌现的近似指标，且得到的是涌现的充分非必要条件，所以上述近似算法的各种弊端会被此方法继承。

====神经信息压缩方法====

+

近年来，新兴的[[人工智能]]技术已经攻克一系列重大难题，同时机器学习方法配备了各种精心设计的[[神经网络]]结构和[[自动微分]]技术，可以在巨大的函数空间中逼近任何函数。因此，[[张江]]等尝试基于神经网络提出一种基于数据驱动的能够从时间序列数据中识别因果涌现的方法<ref name="NIS">Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref><ref name=":6" />，该方法能自动提取有效的粗粒化策略和宏观动力学，克服了Rosas方法<ref name=":5" />的种种不足。

−

近年来，新兴的[[人工智能]]技术已经攻克一系列重大难题，同时机器学习方法配备了各种精心设计的[[神经网络]]结构和[[自动微分]]技术，可以在巨大的函数空间中逼近任何函数。因此，[[张江]]等尝试基于神经网络提出一种基于数据驱动的能够从时间序列数据中识别因果涌现的方法<ref name="NIS">Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref><ref name=":6" />，该方法能自动提取有效的粗粒化策略和宏观动力学，克服了Rosas方法<ref name=":5" />的种种不足。

−

在该工作中，输入的是时间序列数据<math>(X_1,X_2,...,X_T ) </math>，且<math>X_t\equiv (X_t^1,X_t^2,…,X_t^p ) </math>，<math>p </math>表示输入数据的维数。作者假设，这组数据是由一个一般的[[随机动力系统]]产生：

+

在该工作中，输入的是时间序列数据 <math>(X_1,X_2,...,X_T ) </math>，且<math>X_t\equiv (X_t^1,X_t^2,…,X_t^p ) </math>，<math>p </math> 表示输入数据的维数。作者假设，这组数据是由一个一般的[[随机动力系统]]产生：

−

其中[math]X(t)[/math]是微观状态变量，[math]f[/math]是微观动力学，<math>\xi </math>表示系统动力学中的噪音，可以建模动力系统中的随机特性。但是，<math>f</math>是未知的。

+

其中 [math]X(t)[/math] 是微观状态变量，[math]f[/math] 是微观动力学，<math>\xi </math> 表示系统动力学中的噪音，可以建模动力系统中的随机特性。但是，<math>f</math> 是未知的。

+

所谓的因果涌现识别问题是指这样的一个泛函优化问题：

第347行：第384行：

|{{EquationRef|2}}}}

−

这里，[math]\mathcal{J}[/math]为维度平均的<math>EI</math>（参见[[有效信息]]词条），<math>\mathrm{\phi} </math>为粗粒化策略函数，<math>f_{q} </math>为宏观动力学，<math>q </math>为粗粒化后的宏观态维度，[math]\hat{X}_{t+1}[/math]是整个框架对<math>t+1</math>时刻的微观态的预测，这一预测是将<math>t+1</math>时刻的宏观态预测[math]\hat{Y}_{t+1}[/math]进行反粗粒化操作（[math]\phi^{\dagger}[/math]为反粗粒化函数）得到；这里[math]\hat{Y}_{t+1}\equiv f_q(Y_t)[/math]为动力学学习器根据<math>t</math>时刻的宏观态[math]Y_t[/math]对<math>t+1</math>时刻宏观态的预测，其中[math]Y_t\equiv \phi(X_t)[/math]为<math>t</math>时刻的宏观态，它是对[math]X_t[/math]进行粗粒化[math]\phi[/math]而得来。最后，将[math]\hat{X}_{t+1}[/math]与真实的微观态数据[math]X_{t+1}[/math]进行求差比较，即得到微观的预测误差。

+

这里，[math]\mathcal{J}[/math] 为维度平均的 <math>EI</math>（参见[[有效信息]]词条），<math>\mathrm{\phi} </math> 为粗粒化策略函数，<math>f_{q} </math> 为宏观动力学，<math>q </math> 为粗粒化后的宏观态维度，[math]\hat{X}_{t+1}[/math] 是整个框架对 <math>t+1</math> 时刻的微观态的预测，这一预测是将 <math>t+1</math> 时刻的宏观态预测 [math]\hat{Y}_{t+1}[/math] 进行反粗粒化操作（[math]\phi^{\dagger}[/math] 为反粗粒化函数）得到；这里 [math]\hat{Y}_{t+1}\equiv f_q(Y_t)[/math] 为动力学学习器根据 <math>t</math> 时刻的宏观态 [math]Y_t[/math] 对 <math>t+1</math> 时刻宏观态的预测，其中 [math]Y_t\equiv \phi(X_t)[/math] 为 <math>t</math> 时刻的宏观态，它是对 [math]X_t[/math] 进行粗粒化 [math]\phi[/math] 而得来。最后，将 [math]\hat{X}_{t+1}[/math] 与真实的微观态数据 [math]X_{t+1}[/math] 进行求差比较，即得到微观的预测误差。

+

整个优化框架如下图所示：

第353行：第391行：

[[文件:NIS_Optimization.png|替代=NIS优化框架|居左|400x400像素|NIS优化框架]]

−

这一优化问题的目标函数为<math>EI</math>，它是函数[math]\phi,\hat{f}_q,\phi^{\dagger}[/math]的泛函（这里宏观维度[math]q[/math]是超参），因此较难优化，我们需要使用机器学习的方法来尝试解决。

+

这一优化问题的目标函数为 <math>EI</math>，它是函数 [math]\phi,\hat{f}_q,\phi^{\dagger}[/math] 的泛函（这里宏观维度 [math]q[/math] 是超参），因此较难优化，我们需要使用机器学习的方法来尝试解决。

+

=====NIS=====

−

+

为了识别系统中的因果涌现，作者提出一种[[神经信息压缩器]]（Neural Information Squeezer，NIS）神经网络架构<ref name="NIS" />，该架构基于一种编码器-动力学学习器-解码器框架，即模型由三个部分构成，分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算（将宏观态配合随机噪声解码为微观态）。其中，作者们用[[可逆神经网络]]（INN）构建编码器（Encoder）和解码器（Decoder），分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数 [math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数（即 [math]\phi^{\dagger}\approx \phi^{-1}[/math]）。该模型框架可以看成是一个神经信息压缩器，将包含噪音的微观态数据置入一个狭窄的信息通道，压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强，之后再解码成微观状态的预测。NIS方法的模型框架如下图所示：

−

为了识别系统中的因果涌现，作者提出一种[[神经信息压缩器]]（Neural Information Squeezer，NIS）神经网络架构<ref name="NIS" />，该架构基于一种编码器-动力学学习器-解码器框架，即模型由三个部分构成，分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算（将宏观态配合随机噪声解码为微观态）。其中，作者们用[[可逆神经网络]]（INN）构建编码器（Encoder）和解码器（Decoder），分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数[math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数（即[math]\phi^{\dagger}\approx \phi^{-1}[/math]）。该模型框架可以看成是一个神经信息压缩器，将包含噪音的微观态数据置入一个狭窄的信息通道，压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强，之后再解码成微观状态的预测。NIS方法的模型框架如下图所示：

[[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]]

−

具体的，编码器函数[math]\phi[/math]由两部分构成：

+

具体的，编码器函数 [math]\phi[/math] 由两部分构成：

<math>

第367行：第405行：

</math>

−

其中[math]\psi[/math]为一个可逆函数，由一个[[可逆神经网络]]来实现，[math]\chi[/math]为[[投影函数]]，即去除[math]p[/math]维向量中的后[math]p-q[/math]个维度分量，这里[math]p,q[/math]分别为微观态和宏观态的维度。[math]\circ[/math]为函数的合成操作。

+

其中 [math]\psi[/math] 为一个可逆函数，由一个[[可逆神经网络]]来实现，[math]\chi[/math] 为[[投影函数]]，即去除 [math]p[/math] 维向量中的后 [math]p-q[/math] 个维度分量，这里 [math]p,q[/math] 分别为微观态和宏观态的维度。[math]\circ[/math] 为函数的合成操作。

−

解码器为函数[math]\phi^{\dagger}[/math]，它定义为：

+

解码器为函数 [math]\phi^{\dagger}[/math]，它定义为：

<math>

第375行：第414行：

</math>

−

这里[math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math]为一个[math]p-q[/math]维随机向量，服从标准正态分布。

+

这里 [math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math] 为一个 [math]p-q[/math] 维随机向量，服从标准正态分布。

+

然而，如果我们直接优化维度平均的[[有效信息]]会存在着一定的困难，文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}}，而是采用了一种取巧的方法。为了解决这个问题，作者将优化过程分为两个阶段，第一个阶段为在给定宏观尺度 <math>q </math> 的情况下最小化微观态预测误差，即 <math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> 并得到最优的宏观态动力学 [math]f_q^\ast[/math]；第二阶段为搜索超参 <math>q </math>，使得有效信息 [math]\mathcal{J}[/math] 能够最大化，即 <math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。实践证明，这种方法可以有效地找到宏观动力学和粗粒化函数，但是并不能真正地事先EI最大化。

−

然而，如果我们直接优化维度平均的[[有效信息]]会存在着一定的困难，文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}}，而是采用了一种取巧的方法。为了解决这个问题，作者将优化过程分为两个阶段，第一个阶段为在给定宏观尺度<math>q </math>的情况下最小化微观态预测误差，即<math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>并得到最优的宏观态动力学[math]f_q^\ast[/math]；第二阶段为搜索超参<math>q </math>，使得有效信息[math]\mathcal{J}[/math]能够最大化，即<math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。实践证明，这种方法可以有效地找到宏观动力学和粗粒化函数，但是并不能真正地事先EI最大化。

除了能基于时序数据自动识别因果涌现，该框架还有很好的理论性质，其中有两个重要定理：

−

'''定理一'''：神经信息挤压器的[[信息瓶颈]]，即对于任意的双射<math>\mathrm{\psi} </math>、投影<math>\chi </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\sim\mathcal{Ν}\left (0,I_{p-q}\right ) </math>，

+

'''定理一'''：神经信息挤压器的[[信息瓶颈]]，即对于任意的双射 <math>\mathrm{\psi} </math>、投影 <math>\chi </math>、宏观动力学 <math>f </math>以及高斯噪音 <math>z_{p-q}\sim\mathcal{Ν}\left (0,I_{p-q}\right ) </math>，

<math>

第388行：第430行：

恒成立，这意味着，编码器丢弃的所有信息实际上都是与预测无关的噪声信息。

+

'''定理二'''：对于一个训练好的模型，<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)</math>，因此，综合定理一和定理二，我们可以得到对于一个训练好的模型：

第394行：第437行：

I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right)

</math>

+

======与经典理论的比较======

−

[[NIS]]框架与前面章节中提到的[[计算力学]]框架存在很多相似之处，NIS可以被视为一种<math>\epsilon</math>- machine 。[[计算力学]]中的所有历史过程构成的集合<math>\overleftarrow{S}</math>可以被看作是微观状态，所有<math>R \in \mathcal{R} </math>表示宏观状态，函数<math>\eta </math>可以理解为一种粗粒化函数，<math>\epsilon </math>可以理解为一种有效的粗粒化策略，<math>T</math> 对应于有效的宏观动力学。最小随机性指标特征表征了宏观动力学的确定性，在因果涌现中可以用[[有效信息]]替代。当整个框架训练充分的时候，可以精确地预测未来的微观状态时，编码的宏观状态收敛到有效状态，而有效状态可以被视为计算力学中的[[因果态]]。

Complexivist Ran

150

个编辑

更改

因果涌现 (查看源代码)

2024年11月1日 (五) 06:24的版本

导航菜单

搜索