更改

因果涌现 (查看源代码)

2024年11月3日 (日) 10:21的版本

添加220字节、 2024年11月3日 (星期日)

无编辑摘要

第68行：第68行： −

计算力学可以证明，通过 <math>\epsilon</math>-machine 得到的因果态具有'''最大可预测性'''、'''最小统计复杂度'''以及'''最小随机性'''这三个重要特性，并验证了其在某种意义上是最优的。此外，作者引入了一种分层机器重构算法，可以从观测数据中计算因果态和 <math>\epsilon</math>-~~machine。尽管该算法可能并不适用于所有场景，但作者以混沌动力学、隐马尔可夫模型和元胞自动机为例，给出了数值计算结果和相应的机器重构路径~~ <ref name="The_calculi_of_emergence">{{cite journal|author1=Crutchfield, J.P|title=The calculi of emergence: computation, dynamics and induction|journal=Physica D: Nonlinear Phenomena|year=1994|volume=75|issue=1-3|page=11-54|url=https://www.sciencedirect.com/science/article/abs/pii/0167278994902739}}</ref>。

+

计算力学可以证明，通过 <math>\epsilon</math>-machine 得到的因果态具有'''最大可预测性'''、'''最小统计复杂度'''以及'''最小随机性'''这三个重要特性，并验证了其在某种意义上是最优的。此外，作者引入了一种分层机器重构算法，可以从观测数据中计算因果态和 <math>\epsilon</math>-machine。尽管该算法可能并不适用于所有场景，但作者以混沌动力学、隐马尔科夫模型和元胞自动机为例，给出了数值计算结果和相应的机器重构路径 <ref name="The_calculi_of_emergence">{{cite journal|author1=Crutchfield, J.P|title=The calculi of emergence: computation, dynamics and induction|journal=Physica D: Nonlinear Phenomena|year=1994|volume=75|issue=1-3|page=11-54|url=https://www.sciencedirect.com/science/article/abs/pii/0167278994902739}}</ref>。

第567行：第567行：

===复杂网络中的因果涌现===

−

~~2020年，Klein和Hoel改进马尔科夫链上定量化因果涌现的方法以应用到~~[[复杂网络]]中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>，作者借助[[随机游走子]]来定义网络中的[[马尔科夫链]]，将随机游走子放在节点上等价于对节点做干预，然后基于随机游走概率定义节点间的转移概率矩阵。同时作者将[[有效信息]]与网络的连通性建立联系，连通性可以通过节点的出边和入边的权重的不确定性来表征，基于此定义复杂网络中的有效信息。详细方法可以参考[[复杂网络中的因果涌现]]。

+

2020 年，Klein 和 Hoel 改进马尔科夫链上定量化因果涌现的方法以应用到[[复杂网络]]中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>，作者借助[[随机游走子]]来定义网络中的[[马尔科夫链]]，将随机游走子放在节点上等价于对节点做干预，然后基于随机游走概率定义节点间的转移概率矩阵。同时作者将[[有效信息]]与网络的连通性建立联系，连通性可以通过节点的出边和入边的权重的不确定性来表征，基于此定义复杂网络中的有效信息。详细方法可以参考[[复杂网络中的因果涌现]]。

−

作者在[[随机网络模型|随机网络]]（ER）、[[偏好依附网络模型]]（PA）等人工网络以及四类真实网络中进行了实验比较，发现：对于ER网络来说，有效信息的大小只依赖于连接概率<math>p </math>，并且随着网络规模的增大会收敛到数值<math>-\log_2p </math>。同时一个关键发现表明，EI数值存在一个相变点，该相变点近似在网络的[[平均度]]（<math><k> </math>）等于<math>\log_2N </math>的位置出现，同样对应于ER网络随着连接概率增加而出现[[巨连通集团]]的[[相变点]]位置，超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于偏好依附模型网络来说，当网络[[度分布]]的幂律指数<math>\alpha<1.0 </math>时，有效信息的大小会随着网络规模的增加而增大；当<math>\alpha>1.0 </math>时，结论相反；<math>\alpha=1.0 </math>刚好对应的[[无标度网络]]则是增长的[[临界边界]]。对于真实网络来说，作者们发现，生物网络因为具有很大的噪音，所以有效信息最低。然而，我们可以通过有效的粗粒化去除这些噪音，这就使得生物网络相比于其他类型网络能够展现出更显著的因果涌现现象；而因为技术类型网络是更稀疏、非退化，因此，平均效率更高，节点关系也更加具体，所有有效信息也最高，但是难以通过粗粒化来增加因果涌现度量。

−

在该文章中，作者使用[[贪婪算法]]~~来粗粒化网络，然而对于大规模网络来说，这种算法效率很低。随后，Griebenow等~~<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于[[谱聚类]]的方法来识别[[偏好依附网络]]中的因果涌现。相比[[贪婪算法]]以及[[梯度下降算法]]，[[谱聚类算法]]的计算时间更少，同时找到的宏观网络的因果涌现也更加显著。

+

作者在[[随机网络模型|随机网络]]（ER）、[[偏好依附网络模型]]（PA）等人工网络以及四类真实网络中进行了实验比较，发现：对于ER网络来说，有效信息的大小只依赖于连接概率 <math>p </math>，并且随着网络规模的增大会收敛到数值 <math>-\log_2p </math>。同时一个关键发现表明，EI数值存在一个相变点，该相变点近似在网络的[[平均度]]（<math><k> </math>）等于 <math>\log_2N </math> 的位置出现，同样对应于ER网络随着连接概率增加而出现[[巨连通集团]]的[[相变点]]位置，超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于偏好依附模型网络来说，当网络[[度分布]]的幂律指数 <math>\alpha<1.0 </math> 时，有效信息的大小会随着网络规模的增加而增大；当 <math>\alpha>1.0 </math> 时，结论相反；<math>\alpha=1.0 </math> 刚好对应的[[无标度网络]]则是增长的[[临界边界]]。对于真实网络来说，作者们发现，生物网络因为具有很大的噪音，所以有效信息最低。然而，我们可以通过有效的粗粒化去除这些噪音，这就使得生物网络相比于其他类型网络能够展现出更显著的因果涌现现象；而因为技术类型网络是更稀疏、非退化，因此，平均效率更高，节点关系也更加具体，所有有效信息也最高，但是难以通过粗粒化来增加因果涌现度量。

+

在该文章中，作者使用[[贪婪算法]]来粗粒化网络，然而对于大规模网络来说，这种算法效率很低。随后，Griebenow 等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于[[谱聚类]]的方法来识别[[偏好依附网络]]中的因果涌现。相比[[贪婪算法]]以及[[梯度下降算法]]，[[谱聚类算法]]的计算时间更少，同时找到的宏观网络的因果涌现也更加显著。

+

===在生物网络上的应用===

−

~~进一步，Klein等人将~~[[复杂网络中的因果涌现]]方法扩展到了更多的生物网络中。前文已经指出，[[生物网络]]~~具有更大的噪音，这使得我们很难理解其内部的运作原理，这种噪音一方面来自系统的固有噪音，另一方面是由于测量或观察引入的。Klein等~~<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、[[简并性]]和[[确定性]]三者之间的关系以及具体含义，得出了一些有趣的结论。

+

进一步，Klein 等人将[[复杂网络中的因果涌现]]方法扩展到了更多的生物网络中。前文已经指出，[[生物网络]]具有更大的噪音，这使得我们很难理解其内部的运作原理，这种噪音一方面来自系统的固有噪音，另一方面是由于测量或观察引入的。Klein 等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、[[简并性]]和[[确定性]]三者之间的关系以及具体含义，得出了一些有趣的结论。

+

例如，基因表达网络中的高[[确定性]]可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在高[[简并性]]现象。这两个因素共同导致，目前人们尚不清楚应该在何种尺度上分析生物系统才能更好理解它们的功能。Klein 等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过 1800 个物种的[[蛋白质相互作用网络]]，发现宏观尺度的网络具有更小的噪音和[[简并性]]，同时与不参与宏观尺度的节点相比，组成宏观尺度网络中的节点更具有弹性。因此，生物网络为了适应进化的要求，需要演化出宏观尺度以提高确定性来增强[[网络弹性]]以及提高信息传输的有效性。

+

−

例如，基因表达网络中的高[[确定性]]可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在高[[简并性]]现象。这两个因素共同导致，目前人们尚不清楚应该在何种尺度上分析生物系统才能更好理解它们的功能。Klein等<ref>~~Klein B,~~ Hoel E, ~~Swain A, et al~~. ~~Evolution and emergence:~~ higher ~~order information structure~~ in ~~protein interactomes across the tree of life~~[J]. Integrative Biology, ~~2021~~, 13(12): ~~283~~-~~294~~.</ref>~~分析了超过1800个物种的~~[[~~蛋白质相互作用网络~~]]~~，发现宏观尺度的网络具有更小的噪音和~~[[~~简并性~~]]，同时与不参与宏观尺度的节点相比，组成宏观尺度网络中的节点更具有弹性。因此，生物网络为了适应进化的要求，需要演化出宏观尺度以提高确定性来增强[[~~网络弹性~~]]~~以及提高信息传输的有效性。~~

+

Hoel 等在文章<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>中借助[[有效信息]]理论进一步研究了生物系统中的因果涌现。作者将有效信息应用到[[基因调控网络]]上，以识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的[[最大联通集团]]中的因果涌现，文章揭示了富有信息的宏观尺度在生物学中是普遍存在的，以及生命机制本身也经常运行在宏观尺度上。该文章也为生物学家提供了一种可计算的工具来识别最具有信息的宏观尺度，并且可以在此基础上建模、预测、控制和理解复杂的生物系统。

−

Hoel等在文章<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>中借助[[有效信息]]理论进一步研究了生物系统中的因果涌现。作者将有效信息应用到[[基因调控网络]]上，以识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的[[最大联通集团]]中的因果涌现，文章揭示了富有信息的宏观尺度在生物学中是普遍存在的，以及生命机制本身也经常运行在宏观尺度上。该文章也为生物学家提供了一种可计算的工具来识别最具有信息的宏观尺度，并且可以在此基础上建模、预测、控制和理解复杂的生物系统。

−

~~Swain等在文章~~<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>中探索了蚁群的交互历史对任务分配和任务切换的影响，使用有效信息研究噪声如何在蚂蚁之间传播。结果发现，蚁群之间历史交互程度影响任务的分配，并且具体交互中蚂蚁群体的类型决定了交互中的噪音。此外，即使当蚂蚁切换功能群时，蚁群涌现出来的凝聚力也能保证群体的稳定，同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。

+

Swain 等在文章<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>中探索了蚁群的交互历史对任务分配和任务切换的影响，使用有效信息研究噪声如何在蚂蚁之间传播。结果发现，蚁群之间历史交互程度影响任务的分配，并且具体交互中蚂蚁群体的类型决定了交互中的噪音。此外，即使当蚂蚁切换功能群时，蚁群涌现出来的凝聚力也能保证群体的稳定，同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。

+

===在人工神经网络上的应用===

+

Marrow 等人在文章<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>中尝试将[[有效信息]]引入[[神经网络]]，来量化和跟踪训练过程中神经网络[[因果结构]]的变化，其中[[有效信息]]用于评估节点和边对每层下游目标的因果的影响程度，这里每层神经网络的有效信息 EI 定义为：

−

Marrow等人在文章<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>中尝试将[[有效信息]]引入[[神经网络]]，来量化和跟踪训练过程中神经网络[[因果结构]]的变化，其中[[有效信息]]用于评估节点和边对每层下游目标的因果的影响程度，这里每层神经网络的有效信息EI定义为：

<math>

第590行：第597行：

</math>

−

~~，这里的~~<math>L_1</math>和<math>L_2</math>分别表示连接神经网络的输入和输出层，这里将输入层整体do成均匀分布，然后计算因和果之间的互信息。[[有效信息]]可以被分解为灵敏性和简并性，这里的灵敏性定义为：

+

这里的 <math>L_1</math> 和 <math>L_2</math> 分别表示连接神经网络的输入和输出层，这里将输入层整体do成均匀分布，然后计算因和果之间的互信息。[[有效信息]]可以被分解为灵敏性和简并性，这里的灵敏性定义为：

+

<math>

第596行：第605行：

</math>

−

~~，这里i,j分别代表输入层和输出层的任意神经元组合，~~<math>t_i</math>和<math>t_j</math>分别表示输入和输出层中的神经元在神经网络机制不变的条件下，干预i为最大熵分布后的状态组合。也就是说，如果干预输入神经元i为均匀分布，则输出神经元也会发生改变，那么这一数值即度量二者之间的互信息。

+

这里 i，j 分别代表输入层和输出层的任意神经元组合，<math>t_i</math> 和 <math>t_j</math> 分别表示输入和输出层中的神经元在神经网络机制不变的条件下，干预 i 为最大熵分布后的状态组合。也就是说，如果干预输入神经元 i 为均匀分布，则输出神经元也会发生改变，那么这一数值即度量二者之间的互信息。

+

这里应该区别于有效信息的定义，这里是对输入层中的每一个神经元分别进行do干预，然后将每两个神经元计算出来的互信息进行累加作为灵敏性的定义，简并性通过有效信息与灵敏性的差得到，定义为：

+

<math>

I(L_1;L_2|do(L_1=H^{max}))-\sum_{(i \in L_1,j \in L_2)}I(t_i;t_j|do(i=H^{max}))

−

</math>。

+

</math>

+

通过观察模型训练过程中的有效信息，包括[[灵敏性]]和[[简并性]]的变化，就可以知道模型的泛化能力，从而帮助学者更好的理解和解释神经网络的工作原理。

+

===在脑神经系统上的应用===

−

脑神经系统是一个涌现的多尺度[[复杂系统 Complex Systems|复杂系统]]~~，Luppi等人~~<ref>Luppi AI, Mediano PA, Rosas FE, Allanson J, Pickard JD, Carhart-Harris RL, Williams GB, Craig MM, Finoia P, Owen AM, Naci L. A synergistic workspace for human consciousness revealed by integrated information decomposition. BioRxiv. 2020 Nov 26:2020-11.</ref>基于[[整合信息分解]]，揭示了人类[[意识]]的协同工作空间。作者构建了脑认知的三层架构，包括：外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段：第一个阶段负责将来自多个不同模块的信息收集到工作空间中，第二个阶段负责在工作空间中整合收集到的信息，第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的fMRI数据上进行实验，包括100个正常人、15个参与麻醉实验的被试者（包括麻醉前、麻醉以及恢复三种不同状态）以及22个慢性意识障碍 (DOC)的被试者。该文章使用[[整合信息分解]]得到[[协同信息]]和[[冗余信息]]，以及使用修正后的[[整合信息值]]<math>\Phi_R</math>，来计算每两个脑区之间的协同和冗余值，从而得到每个脑区发挥更大作用的因素是协同还是冗余。同时，他们对比有意识人的数据，发现无意识人的[[整合信息]]发生显著降低的区域都属于[[协同信息]]~~发挥更大作用的脑区，同时发现整合信息显著降低的区域都属于DMN（Default~~ Mode Network）这样的功能区，从而定位到对于发生意识具有显著作用的脑区。

+

脑神经系统是一个涌现的多尺度[[复杂系统 Complex Systems|复杂系统]]，Luppi 等人<ref>Luppi AI, Mediano PA, Rosas FE, Allanson J, Pickard JD, Carhart-Harris RL, Williams GB, Craig MM, Finoia P, Owen AM, Naci L. A synergistic workspace for human consciousness revealed by integrated information decomposition. BioRxiv. 2020 Nov 26:2020-11.</ref>基于[[整合信息分解]]，揭示了人类[[意识]]的协同工作空间。作者构建了脑认知的三层架构，包括：外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段：第一个阶段负责将来自多个不同模块的信息收集到工作空间中，第二个阶段负责在工作空间中整合收集到的信息，第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的 fMRI 数据上进行实验，包括 100 个正常人、15 个参与麻醉实验的被试者（包括麻醉前、麻醉以及恢复三种不同状态）以及 22 个慢性意识障碍（DOC）的被试者。该文章使用[[整合信息分解]]得到[[协同信息]]和[[冗余信息]]，以及使用修正后的[[整合信息值]] <math>\Phi_R</math>，来计算每两个脑区之间的协同和冗余值，从而得到每个脑区发挥更大作用的因素是协同还是冗余。同时，他们对比有意识人的数据，发现无意识人的[[整合信息]]发生显著降低的区域都属于[[协同信息]]发挥更大作用的脑区，同时发现整合信息显著降低的区域都属于 DMN（Default Mode Network）这样的功能区，从而定位到对于发生意识具有显著作用的脑区。

+

===在人工智能系统上的应用===

+

因果涌现理论与[[人工智能]]领域也存在着非常强的联系，这体现为：首先，因果涌现识别问题的机器学习解决方案其实就是一种[[因果表示学习]]的应用；其次，[[有效信息]]的最大化等技术也有望应用到[[因果机器学习]]等领域。

−

因果涌现理论与[[人工智能]]领域也存在着非常强的联系，这体现为：首先，因果涌现识别问题的机器学习解决方案其实就是一种[[因果表示学习]]的应用；其次，[[有效信息]]的最大化等技术也有望应用到[[因果机器学习]]等领域。

====因果表示学习====

[[因果表示学习]]是人工智能中的一个新兴领域，它试图将机器学习中的两个重要领域：[[表示学习]]和[[因果推断]]结合起来，尝试结合各自的优势，自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。基于有效信息的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现，等价于学习数据背后的潜在因果关系与因果机制。具体来说，我们可以把宏观状态看成因果变量，宏观动力学类比为因果机制，粗粒化策略可以看作是一个从原始数据到因果变量的编码过程或表示（Representation），有效信息可以理解为对机制的因果效应强度的衡量。

+

由于这两者存在很多相似之处，这就使得两个领域的技术和概念可以相互借鉴。例如，[[因果表示学习]]技术可以应用于[[因果涌现识别]]，反过来，学习到的抽象因果表征可以被解释为一种宏观状态，从而增强因果表示学习的可解释性。但是两者也存在显著差异，主要包括两点：1）因果表示学习假设其背后存在一个真实的[[因果机制]]，数据是由这个因果机制产生的，然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”；2）因果涌现中的粗粒化后的宏观状态是一种低维的描述，然而因果表示学习中并没有这个要求。从认识论的视角看，两者并不存在差异，因为两者所做的都是从观察数据中提取有效信息的，从而获得具有因果效应更强的表征。

+

为了更好地对比因果表示学习和因果涌现识别任务，我们列出了下表：

+

{| class="wikitable" style="text-align:center;"

第637行：第655行：

|'''目标'''||寻找原始数据的最优表示，以确保通过表示可以实现独立的因果机制||寻找一个有效的粗粒化策略以及具有强因果效应的宏观动力学

|}

+

====有效信息在因果机器学习中的应用====

−

因果涌现能够在分布外场景中增强[[机器学习]]的性能，<math>EI</math>~~中引入的do干预捕获了数据生成过程中的因果依赖性，抑制了虚假相关，从而补充了基于关联的机器学习算法，建立了~~<math>EI</math>与[[分布外泛化]]（Out Of Distribution，简称OOD）的联系<ref name="Emergence_and_causality_in_complex_systems">{{cite journal|author1=Yuan, B|author2=Zhang, J|author3=Lyu, A|author4=Wu, J|author5=Wang, Z|author6=Yang, M|author7=Liu, K|author8=Mou, M|author9=Cui, P|title=Emergence and causality in complex systems: A survey of causal emergence and related quantitative studies|journal=Entropy|year=2024|volume=26|issue=2|page=108|url=https://www.mdpi.com/1099-4300/26/2/108}}</ref>。由于[[有效信息]]的通用性，因果涌现可以应用于监督机器学习来评估特征空间<math>X</math>与目标空间<math>Y</math>之间的因果关系强度，从而提高从原因(特征)到结果(目标)的预测准确性。值得注意的是，对观测值从<math>X</math>到<math>Y</math>~~的直接拟合足以满足具有i~~.i.d.假设的常见预测任务，这意味着训练数据和测试数据是[[独立同分布]]的。然而，如果样本是从训练分布之外抽取的，就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于[[统计相关性]]<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893.</ref>，因此，因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素，从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的分布外泛化提供一个统一的表征度量。<math>EI</math>也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外，我们猜想，分布外泛化可以在最大化<math>EI</math>的同时实现，<math>EI</math>~~可能会在原始特征抽象的中期阶段达到顶峰，这与OOD泛化的思想一致，即少即是多。理想情况下，当因果涌现发生在~~<math>EI</math>的峰值处，所有非因果特征被排除，因果特征被揭示，从而产生最具信息量的表示。

+

因果涌现能够在分布外场景中增强[[机器学习]]的性能，<math>EI</math> 中引入的 do 干预捕获了数据生成过程中的因果依赖性，抑制了虚假相关，从而补充了基于关联的机器学习算法，建立了 <math>EI</math> 与[[分布外泛化]]（Out Of Distribution，简称OOD）的联系<ref name="Emergence_and_causality_in_complex_systems">{{cite journal|author1=Yuan, B|author2=Zhang, J|author3=Lyu, A|author4=Wu, J|author5=Wang, Z|author6=Yang, M|author7=Liu, K|author8=Mou, M|author9=Cui, P|title=Emergence and causality in complex systems: A survey of causal emergence and related quantitative studies|journal=Entropy|year=2024|volume=26|issue=2|page=108|url=https://www.mdpi.com/1099-4300/26/2/108}}</ref>。由于[[有效信息]]的通用性，因果涌现可以应用于监督机器学习来评估特征空间 <math>X</math> 与目标空间 <math>Y</math> 之间的因果关系强度，从而提高从原因(特征)到结果(目标)的预测准确性。值得注意的是，对观测值从 <math>X</math> 到 <math>Y</math> 的直接拟合足以满足具有 i.i.d.假设的常见预测任务，这意味着训练数据和测试数据是[[独立同分布]]的。然而，如果样本是从训练分布之外抽取的，就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于[[统计相关性]]<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893.</ref>，因此，因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素，从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的分布外泛化提供一个统一的表征度量。<math>EI</math> 也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外，我们猜想，分布外泛化可以在最大化 <math>EI</math> 的同时实现，<math>EI</math> 可能会在原始特征抽象的中期阶段达到顶峰，这与 OOD 泛化的思想一致，即少即是多。理想情况下，当因果涌现发生在 <math>EI</math> 的峰值处，所有非因果特征被排除，因果特征被揭示，从而产生最具信息量的表示。

=====因果模型抽象=====

在复杂系统中，由于微观状态往往存在噪音，人们需要将微观状态进行粗粒化才能得到噪音更小的宏观状态，使得宏观动力学的因果性更强。同样对于解释各类数据的因果模型也一样，由于原始模型过于复杂，或者计算资源受限，所以人们往往需要得到更加抽象的因果模型，并且保证抽象的模型尽可能保持原始模型的[[因果机制]]，这就是所谓的[[因果模型抽象]]（Causal Model Abstraction）。

+

[[因果模型抽象]]属于人工智能的一个子领域，它特别在因果推理和模型可解释性方面发挥着重要的作用，这种抽象可以帮助我们更好地理解数据中隐藏的因果机制，以及变量之间的相互作用。因果模型抽象通过评估一个高层次模型尽可能模拟一个低层次模型的因果效应的优化来实现<ref>Beckers, Sander, and Joseph Y. Halpern. "Abstracting causal models." Proceedings of the aaai conference on artificial intelligence. Vol. 33. No. 01. 2019.</ref>。如果高层次模型能够概括低层次模型的因果效应，我们称这个高层次模型是低层次模型的因果抽象。

−

因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此，因果涌现识别与因果模型抽象存在很多相似之处，可以把原始的因果机制理解为微观动力学，抽象出来的机制理解为宏观动力学。在[[NIS|神经信息压缩框架]]中（NIS），研究者对粗粒化策略和宏观动力学进行了限制，要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型要尽可能相似。但是两者也存在一些不同：1）因果涌现识别是对状态或数据进行粗粒化，而因果模型抽象是对模型进行粗粒化操作；2）因果模型抽象中考虑了混肴因子，然而这一点却被因果涌现识别的讨论所忽略。

+

因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此，因果涌现识别与因果模型抽象存在很多相似之处，可以把原始的因果机制理解为微观动力学，抽象出来的机制理解为宏观动力学。在 [[NIS |神经信息压缩框架]]中（NIS），研究者对粗粒化策略和宏观动力学进行了限制，要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型要尽可能相似。但是两者也存在一些不同：1）因果涌现识别是对状态或数据进行粗粒化，而因果模型抽象是对模型进行粗粒化操作；2）因果模型抽象中考虑了混肴因子，然而这一点却被因果涌现识别的讨论所忽略。

+

=====基于世界模型的强化学习=====

−

基于[[世界模型]]的[[强化学习]]假设强化学习主体内部存在一个世界模型，从而可以模拟[[智能主体]]所面对环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习，从而帮助[[智能体]]对不确定的环境做出计划和决策。同时为了表示复杂的环境，世界模型一定是对环境的粗粒化描述，一个典型的世界模型架构总是包含一个编码器和一个解码器。

第656行：第677行：

两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如，具有世界模型的智能体可以将复杂系统作为一个整体来进行交互，并从相互作用中获得涌现的因果规律，从而更好的帮助我们做因果涌现识别任务。反过来，最大化有效信息技术也可以被用于强化学习，使世界模型具有更强的因果特性。

+

===其它潜在应用===

+

除了上述应用领域之外，因果涌现理论对于其它重要问题还可能存在着巨大的潜在应用价值，例如它对于意识问题的研究以及在中国古典哲学的现代科学解释方面有一定的前景。

−

除了上述应用领域之外，因果涌现理论对于其它重要问题还可能存在着巨大的潜在应用价值，例如它对于意识问题的研究以及在中国古典哲学的现代科学解释方面有一定的前景。

====意识研究====

+

首先，因果涌现理论的提出就与意识科学研究存在着巨大的联系，这是因为因果涌现理论的核心指标[[有效信息]]最早就是 [[Tononi]] 在研究意识的定量理论[[整合信息论]]中提出来的。后经过改造，才被 [[Erik Hoel]] 应用到了马尔科夫链上，并提出因果涌现概念。因此，从这个意义上说，有效信息其实是定量意识科学的副产品。

−

首先，因果涌现理论的提出就与意识科学研究存在着巨大的联系，这是因为因果涌现理论的核心指标[[有效信息]]最早就是[[Tononi]]在研究意识的定量理论[[整合信息论]]中提出来的。后经过改造，才被[[Erik Hoel]]应用到了马尔科夫链上，并提出因果涌现概念。因此，从这个意义上说，有效信息其实是定量意识科学的副产品。

其次，因果涌现作为复杂系统中的重要概念在意识科学的研究中也起着重要的作用。例如，在意识领域中，一个核心问题是意识究竟是一个宏观尺度的现象还是微观尺度的现象？至今，尚没有直接证据表明意识发生的尺度是多大。因果涌现的深入研究，特别是结合脑神经的实验数据，有可能回答意识现象的发生尺度问题。

+

再次，因果涌现有可能回答自由意志（Free will）问题。人有没有自由意志？我们做出的决定真的是我们意志的自由选择吗？还是有可能它仅仅是一种幻觉？事实上，如果接受因果涌现概念，并承认宏观的变量会对微观变量产生[[因果力]]，那么人们所有的决策其实都是脑系统自发完成的，而意识仅仅是对这一复杂决策过程进行了某种层面的解释，因而自由意志是一种涌现出的[[向下因果]]。这些问题的回答都有待因果涌现理论的进一步研究。

+

====中国古典哲学====

+

与西方科学、哲学不同，[[中国古典哲学]]保留了一套完整而不同的对宇宙进行解释的理论框架，这包括[[阴阳]]、[[五行]]、[[八卦]]，也包括[[占卜]]、[[风水]]、[[中医]]等，并能对宇宙中的各类现象进行完全独立的解释。长久以来，东西方两套哲学始终难以融合。因果涌现思想有可能提供一套新的解释，从而弥合东西方哲学的冲突。

−

与西方科学、哲学不同，[[中国古典哲学]]保留了一套完整而不同的对宇宙进行解释的理论框架，这包括[[阴阳]]、[[五行]]、[[八卦]]，也包括[[占卜]]、[[风水]]、[[中医]]等，并能对宇宙中的各类现象进行完全独立的解释。长久以来，东西方两套哲学始终难以融合。因果涌现思想有可能提供一套新的解释，从而弥合东西方哲学的冲突。

−

根据因果涌现理论，一套理论的好坏取决于因果性的强弱，也就是<math>EI</math>的大小。而不同的粗粒化方案会得到完全不同的宏观理论（宏观动力学）。很有可能，在面对同样的复杂系统研究对象的时候，西方的哲学、科学体系给出的是一套比较具体而微观的因果机制（动力学），而东方哲学则给出了一套更加粗粒化的宏观因果机制。根据因果涌现理论，或者是Yurchenko提出的[[因果等价原理]]~~(Causal~~ Equivalence Principle)，这二者完全有可能是相互兼容的。也就是说，对于同样一组现象，东西方按照不同的两套因果机制，都能够做出正确的预测，甚至是干预手段。当然，也有可能在某类问题或现象中，更加宏观尺度的因果机制更具有解释力度或得出好的方案，有的问题或现象，则更加有利于更微观的因果机制。

+

根据因果涌现理论，一套理论的好坏取决于因果性的强弱，也就是 <math>EI</math> 的大小。而不同的粗粒化方案会得到完全不同的宏观理论（宏观动力学）。很有可能，在面对同样的复杂系统研究对象的时候，西方的哲学、科学体系给出的是一套比较具体而微观的因果机制（动力学），而东方哲学则给出了一套更加粗粒化的宏观因果机制。根据因果涌现理论，或者是 Yurchenko 提出的[[因果等价原理]]（Causal Equivalence Principle），这二者完全有可能是相互兼容的。也就是说，对于同样一组现象，东西方按照不同的两套因果机制，都能够做出正确的预测，甚至是干预手段。当然，也有可能在某类问题或现象中，更加宏观尺度的因果机制更具有解释力度或得出好的方案，有的问题或现象，则更加有利于更微观的因果机制。

例如，就用东方哲学中的[[五行]]概念来说，我们完全可以将[[五行]]理解成万事万物的五种宏观态，而[[五行]]的相生相克关系就可以被理解为是这五种宏观态彼此之间的一种宏观因果机制。那么，从万事万物中提炼出[[五行]]这五种状态的认知过程，就是一种粗粒化过程，它依赖于观察者的类象能力。因此，五行理论就可以看作是对万事万物进行抽象的因果涌现理论。同样的，我们还可以将因果涌现的概念应用到更多领域，包括中医、占卜、风水等。这些应用的共同点将会是，它的因果机制相对于西方科学更加简单，也有可能因果性更强，但是得到这种抽象的粗粒化过程则更加复杂，更加依赖于有经验的抽象者。这就解释了为什么东方哲学都强调实践者自身的修为，这是因为，这些东方哲学理论将巨大的复杂性和计算量都放到了'''类象思维'''上。

+

==批判==

+

纵观历史，关于因果关系和涌现的[[本体论]]和[[认识论]]方面一直存在长期的争论。

+

例如，Yurchenko 就在文献<ref>Yurchenko, S. B. (2023). Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation?. Authorea Preprints.</ref>中指出”因果“（causation）这一概念往往是模糊的，应区分为'''原因（cause）'''和'''理由（reason）'''两种不同的概念，它们分别符合本体论和认识论的因果。其中，原因（cause）指的是充分导致结果的真实原因，而理由（reason）则仅仅是观察者对结果的解释。理由可能没有真正的原因那么严格，但它确实提供了一定程度的[[可预测性]]。同样，关于因果涌现的本质也存在争论。

+

因果涌现是否是一种独立于特定观察者而存在的真实现象？这里需要强调的是，对于 Hoel 的理论，不同的粗粒化策略可以导致不同的宏观动力学机制与不同的因果效应度量结果（<math>EI</math>）。本质上，不同的粗粒化策略可以代表不同的观察者。Hoel的理论通过干预将涌现与因果关系联系起来，以定量的方式引入了因果涌现的概念。Hoel的理论提出了一个消除不同粗粒化方法影响的方案，即 <math>EI</math> 最大化。能够让EI最大的粗粒化方案就是唯一客观的方案。因此，对于给定的一组[[马尔科夫动力学]]，只有使 <math>EI</math> 最大化的粗粒化策略和相应的宏观动力学才能被认为是客观的结果。然而，当最大化 <math>EI</math> 的解不唯一的时候，也就是存在多种能够让 <math>EI</math> 最大化的粗粒化方案时，就会导致该理论的困难，一定程度的主观性就无法避免。

−

~~纵观历史，关于因果关系和涌现的[[本体论]]和[[认识论]]方面一直存在长期的争论。~~

−

~~例如，Yurchenko就在文献~~<ref>~~Yurchenko~~, ~~S. B~~. (~~2023~~). ~~Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation~~?. ~~Authorea Preprints~~.</ref>中指出”因果“（causation）这一概念往往是模糊的，应区分为'''原因（cause）'''和'''理由（reason）'''两种不同的概念，它们分别符合本体论和认识论的因果。其中，原因（cause）指的是充分导致结果的真实原因，而理由（reason）则仅仅是观察者对结果的解释。理由可能没有真正的原因那么严格，但它确实提供了一定程度的[[~~可预测性~~]]~~。同样，关于因果涌现的本质也存在争论。~~

+

Dewhurst<ref>Dewhurst, J. (2021). Causal emergence from effective information: Neither causal nor emergent?. Thought: A Journal of Philosophy, 10(3), 158-168.</ref>对 Hoel 的理论进行了哲学上的澄清，认为它是认识论的，而不是本体论的。这表明，Hoel 的宏观因果仅仅是一种基于信息论的因果解释，而不涉及“真正的因果”。这也引起了对[[均匀分布]]假设的质疑（参见[[有效信息]]词条），因为没有证据表明它应该优于其他分布。

−

因果涌现是否是一种独立于特定观察者而存在的真实现象？这里需要强调的是，对于Hoel的理论，不同的粗粒化策略可以导致不同的宏观动力学机制与不同的因果效应度量结果（<math>EI</math>）。本质上，不同的粗粒化策略可以代表不同的观察者。Hoel的理论通过干预将涌现与因果关系联系起来，以定量的方式引入了因果涌现的概念。Hoel的理论提出了一个消除不同粗粒化方法影响的方案，即<math>EI</math>最大化。能够让EI最大的粗粒化方案就是唯一客观的方案。因此，对于给定的一组[[马尔科夫动力学]]，只有使<math>EI</math>最大化的粗粒化策略和相应的宏观动力学才能被认为是客观的结果。然而，当最大化<math>EI</math>的解不唯一的时候，也就是存在多种能够让<math>EI</math>最大化的粗粒化方案时，就会导致该理论的困难，一定程度的主观性就无法避免。

−

~~Dewhurst~~<~~ref~~>~~Dewhurst, J.~~ (~~2021~~)~~. Causal emergence from effective information: Neither causal nor emergent?. Thought: A Journal of Philosophy, 10~~(3), 158-168.</ref>对Hoel的理论进行了哲学上的澄清，认为它是认识论的，而不是本体论的。这表明，Hoel的宏观因果仅仅是一种基于信息论的因果解释，而不涉及“真正的因果”。这也引起了对[[均匀分布]]假设的质疑（参见[[有效信息]]词条），因为没有证据表明它应该优于其他分布。

+

除此之外，Hoel 的 <math>EI</math> 计算以及因果涌现的量化，依赖于两个已知的前提因素：(1)已知的微观动力学；(2)已知的粗粒化方案。然而，在实践中，人们很少能够同时获得这两个因素，特别是在观察性研究中，这两个因素可能都是未知的。因此，这一局限性阻碍了Hoel理论的实际适用性。

−

除此之外，Hoel的<math>EI</math>计算以及因果涌现的量化，依赖于两个已知的前提因素：(1)已知的微观动力学；(2)已知的粗粒化方案。然而，在实践中，人们很少能够同时获得这两个因素，特别是在观察性研究中，这两个因素可能都是未知的。因此，这一局限性阻碍了Hoel理论的实际适用性。

+

同时有人指出，Hoel的理论忽略了对粗粒化方法的约束，某些粗粒化方法可能导致歧义<ref>Eberhardt, F., & Lee, L. L. (2022). Causal emergence: When distortions in a map obscure the territory. Philosophies, 7(2), 30.</ref>。此外，一些对状态的粗粒化操作和对时间的粗粒化操作的组合并不表现出[[可交换性]]，例如假定 <math>A_{m \times n}</math> 是对状态进行粗粒化操作(将n个状态合并为m个状态)，这里的粗粒化策略是使得宏观状态转移矩阵有效信息最大的策略，<math>(\cdot) \times (\cdot)</math> 是时间粗粒化操作(将两个时间步骤合并为一个)。这样 [math]A_{m\times n}(TPM_{n \times n})[/math] 就是对一个 [math]n\times n[/math] 的 TPM 做粗粒化，粗粒化过程就简化为矩阵 [math]A[/math] 与矩阵 [math]TPM[/math] 的乘积。

−

同时有人指出，Hoel的理论忽略了对粗粒化方法的约束，某些粗粒化方法可能导致歧义<ref>Eberhardt, F., & Lee, L. L. (2022). Causal emergence: When distortions in a map obscure the territory. Philosophies, 7(2), 30.</ref>。此外，一些对状态的粗粒化操作和对时间的粗粒化操作的组合并不表现出[[可交换性]]，例如假定<math>A_{m \times n}</math>是对状态进行粗粒化操作(将n个状态合并为m个状态)，这里的粗粒化策略是使得宏观状态转移矩阵有效信息最大的策略，<math>(\cdot) \times (\cdot)</math> 是时间粗粒化操作(将两个时间步骤合并为一个)。这样[math]A_{m\times n}(TPM_{n \times n})[/math]就是对一个[math]n\times n[/math]的TPM做粗粒化，粗粒化过程就简化为矩阵[math]A[/math]与矩阵[math]TPM[/math]的乘积。

那么，空间粗粒化和时间粗粒化的可交换性条件，就是如下等式：

+

{{NumBlk|:|

第700行：第730行：

|{{EquationRef|3}}}}

−

左边表示的是先对接续两个时间步的状态做粗粒化，再将两个时间步的动力学TPM乘到一起，得到一个两步演化的转移矩阵；方程右边表示先将两个时间步的TPM乘到一起，得到微观态的两步演化，再用A做粗粒化得到宏观的TPM。该等式的不满足表明某些粗粒化操作会导致宏观状态的演化与微观系统演化后的粗粒化状态存在差异。这意味着需要对粗粒化策略添加某种一致性的约束，例如马尔科夫链可聚类的条件（lumpable），参见[[马尔科夫链的粗粒化]]词条。

+

左边表示的是先对接续两个时间步的状态做粗粒化，再将两个时间步的动力学TPM乘到一起，得到一个两步演化的转移矩阵；方程右边表示先将两个时间步的 TPM 乘到一起，得到微观态的两步演化，再用 A 做粗粒化得到宏观的 TPM。该等式的不满足表明某些粗粒化操作会导致宏观状态的演化与微观系统演化后的粗粒化状态存在差异。这意味着需要对粗粒化策略添加某种一致性的约束，例如马尔科夫链可聚类的条件（lumpable），参见[[马尔科夫链的粗粒化]]词条。

+

然而，如文献<ref name=":6" />中指出，通过在连续变量空间中最大化EI的同时考虑模型的误差因素，上述问题可以得到缓解。

+

不过，虽然机器学习技术促进了因果关系与因果机制的学习，以及对涌现属性的识别，但重要的是通过机器学习获得的结果是否反映了本体论的因果关系和涌现，或者它们仅仅是一种认识论现象？这一点则尚无定论。尽管机器学习的引入不一定能解决围绕本体论和认识论因果关系和涌现的争论问题，但它可以提供有助于减轻主观性的依赖。这是因为机器学习主体可以被视为一个“客观”的观察者，对因果关系和涌现做出判断，这种判断是独立于人类观察者的。然而，唯一解的问题在这一方法中仍然存在。机器学习的结果是本体论还是认识论的?答案是，结果是认识论的，其中认识主体是机器学习算法。然而，这并不意味着机器学习的所有结果都是无意义的，因为如果学习的主体得到了良好的训练，并且定义的数学目标得到了有效的优化，那么结果也可以被认为是客观的，因为算法本身是客观的，且透明的。结合机器学习方法可以帮助我们建立观察者的理论框架，并研究观察者与相应的被观察复杂系统之间的相互作用。

+

==相关研究领域==

存在一些相关研究领域与因果涌现理论联系比较紧密，这里我们重点介绍与[[动力学模型约简]]、[[动力学模态分解]]以及[[马尔科夫链的简化]]三个相关领域的区别和联系。

+

===动力学模型约简===

−

因果涌现的一个重要的指标就是粗粒化策略的选取，而如果在微观模型已知的时候，对微观态的粗粒化就等价于对微观模型进行'''模型约简'''~~(Model Reduction)。模型约简是控制论中的一个重要子领域，Antoulas就曾经写过相关的综述文章~~<ref name=":15">Antoulas A C. An overview of approximation methods for large-scale dynamical systems[J]. Annual reviews in Control, 2005, 29(2): 181-190.</ref>。

+

因果涌现的一个重要的指标就是粗粒化策略的选取，而如果在微观模型已知的时候，对微观态的粗粒化就等价于对微观模型进行'''模型约简'''（Model Reduction）。模型约简是控制论中的一个重要子领域，Antoulas 就曾经写过相关的综述文章<ref name=":15">Antoulas A C. An overview of approximation methods for large-scale dynamical systems[J]. Annual reviews in Control, 2005, 29(2): 181-190.</ref>。

+

模型约简，就是要将高维的复杂系统动力学模型进行化简、降维，用低维的动力学来描述原系统的演化规律，这一过程其实就是因果涌现研究中的粗粒化过程。对大尺度动力系统的近似方法主要有两大类，即基于奇异值分解<ref name=":15" /><ref>Gallivan K, Grimme E, Van Dooren P. Asymptotic waveform evaluation via a Lanczos method[J]. Applied Mathematics Letters, 1994, 7(5): 75-80.</ref>的近似方法和基于 Krylov<ref name=":15" /><ref name=":17">CHRISTIAN DE VILLEMAGNE & ROBERT E. SKELTON (1987) Model reductions using a projection formulation, International Journal of Control, 46:6, 2141-2169, DOI: 10.1080/00207178708934040 </ref><ref>Boley D L. Krylov space methods on state-space control models[J]. Circuits, Systems and Signal Processing, 1994, 13: 733-758.</ref>的近似方法。前者基于奇异值分解，后者基于矩匹配。虽然前者具有许多理想的性质，包括误差界，但它不能应用于高复杂度的系统。另一方面，后者的优势在于它可以迭代实现，因此适用于高维度的复杂度系统。将这两种方法的优势相结合，就产生了第三类近似方法，即称为 SVD/Krylov 的方法<ref>Gugercin S. An iterative SVD-Krylov based method for model reduction of large-scale dynamical systems[J]. Linear Algebra and its Applications, 2008, 428(8-9): 1964-1986.</ref><ref>Khatibi M, Zargarzadeh H, Barzegaran M. Power system dynamic model reduction by means of an iterative SVD-Krylov model reduction method[C]//2016 IEEE Power & Energy Society Innovative Smart Grid Technologies Conference (ISGT). IEEE, 2016: 1-6.</ref>。两种方法都是基于粗粒化前后输出函数的误差损失函数来对模型约简效果做评价的，因此，模型约简的目标就是寻找能使误差最小的约简参数矩阵。

−

模型约简，就是要将高维的复杂系统动力学模型进行化简、降维，用低维的动力学来描述原系统的演化规律，这一过程其实就是因果涌现研究中的粗粒化过程。对大尺度动力系统的近似方法主要有两大类，即基于奇异值分解<ref name=":15" /><ref>Gallivan K, Grimme E, Van Dooren P. Asymptotic waveform evaluation via a Lanczos method[J]. Applied Mathematics Letters, 1994, 7(5): 75-80.</ref>的近似方法和基于Krylov<ref name=":15" /><ref name=":17">CHRISTIAN DE VILLEMAGNE & ROBERT E. SKELTON (1987) Model reductions using a projection formulation, International Journal of Control, 46:6, 2141-2169, DOI: 10.1080/00207178708934040 </ref><ref>Boley D L. Krylov space methods on state-space control models[J]. Circuits, Systems and Signal Processing, 1994, 13: 733-758.</ref>的近似方法。前者基于奇异值分解，后者基于矩匹配。虽然前者具有许多理想的性质，包括误差界，但它不能应用于高复杂度的系统。另一方面，后者的优势在于它可以迭代实现，因此适用于高维度的复杂度系统。将这两种方法的优势相结合，就产生了第三类近似方法，即称为SVD/Krylov的方法<ref>Gugercin S. An iterative SVD-Krylov based method for model reduction of large-scale dynamical systems[J]. Linear Algebra and its Applications, 2008, 428(8-9): 1964-1986.</ref><ref>Khatibi M, Zargarzadeh H, Barzegaran M. Power system dynamic model reduction by means of an iterative SVD-Krylov model reduction method[C]//2016 IEEE Power & Energy Society Innovative Smart Grid Technologies Conference (ISGT). IEEE, 2016: 1-6.</ref>。两种方法都是基于粗粒化前后输出函数的误差损失函数来对模型约简效果做评价的，因此，模型约简的目标就是寻找能使误差最小的约简参数矩阵。

一般情况下基于模型约简前后输出函数的误差损失函数可以用来判断粗粒化参数，这一过程默认了系统约简的过程会损失信息量，因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑，[[有效信息]]会因为降维而增大，这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。当动力系统是随机系统的时候<ref name=":17" />，直接计算损失函数会因为随机性的存在，导致其稳定性无法保证，因而约简的有效性也会无法准确测量。而本身就是基于随机动力系统的有效信息和因果涌现指标，一定程度上可以增加评判指标的有效性，使对随机动力系统的控制研究更加严谨。

+

===动力学模态分解===

−

除了动力学模型约简之外，动力学模态分解也和粗粒化有着密切的联系。动力学模态分解（Dynamic Mode Decomposition, DMD）<ref>Schmid P J. Dynamic mode decomposition and its variants[J]. Annual Review of Fluid Mechanics, 2022, 54(1): 225-254.</ref><ref>J. Proctor, S. Brunton and J. N. Kutz, Dynamic mode decomposition with control, arXiv:1409.6358</ref>模型的基本思想是直接从数据中得到流场中流动的动态信息，根据不同频率的流场变动寻找数据映射。该方法基于把非线性无穷维动力学转化为有穷维的线性动力学的方式，并采用了Arnoldi ~~方法以及奇异值分解降维的思想，借鉴了ARIMA、SARIMA以及季节模型等许多时间序列的关键特征，被广泛的使用在数学、物理、金融等领域~~<ref>J. Grosek and J. N. Kutz, Dynamic mode decomposition for real-time background/foreground separation in video, arXiv:1404.7592.</ref>。动态模式分解按照频率对系统进行排序，提取系统的本征频率，从而观察不同频率的流动结构对流场的贡献，同时动态模式分解模态特征值可以对流场进行预测。因为动态模态分解算法具有理论的严密性、稳定性、简易性等优点。在不断应用的同时，动态模态分解算法也在原有基础之上不断被完善，如与SPA检验结合起来，以验证股票价格预测对比基准点的强有效性以及通过联系动态模态分解算法和光谱研究的方式，模拟股票市场在循环经济当中的振动模式等。这些应用均能够有效地采集分析数据，并最终得到结果。

+

除了动力学模型约简之外，动力学模态分解也和粗粒化有着密切的联系。动力学模态分解（Dynamic Mode Decomposition, DMD）<ref>Schmid P J. Dynamic mode decomposition and its variants[J]. Annual Review of Fluid Mechanics, 2022, 54(1): 225-254.</ref><ref>J. Proctor, S. Brunton and J. N. Kutz, Dynamic mode decomposition with control, arXiv:1409.6358</ref>模型的基本思想是直接从数据中得到流场中流动的动态信息，根据不同频率的流场变动寻找数据映射。该方法基于把非线性无穷维动力学转化为有穷维的线性动力学的方式，并采用了Arnoldi 方法以及奇异值分解降维的思想，借鉴了 ARIMA、SARIMA 以及季节模型等许多时间序列的关键特征，被广泛的使用在数学、物理、金融等领域<ref>J. Grosek and J. N. Kutz, Dynamic mode decomposition for real-time background/foreground separation in video, arXiv:1404.7592.</ref>。动态模式分解按照频率对系统进行排序，提取系统的本征频率，从而观察不同频率的流动结构对流场的贡献，同时动态模式分解模态特征值可以对流场进行预测。因为动态模态分解算法具有理论的严密性、稳定性、简易性等优点。在不断应用的同时，动态模态分解算法也在原有基础之上不断被完善，如与 SPA 检验结合起来，以验证股票价格预测对比基准点的强有效性以及通过联系动态模态分解算法和光谱研究的方式，模拟股票市场在循环经济当中的振动模式等。这些应用均能够有效地采集分析数据，并最终得到结果。

+

动力学模式分解，属于利用线性变换同时对变量、动力学、观测函数进行降维<ref>B. Brunton, L. Johnson, J. Ojemann and J. N. Kutz, Extracting spatial-temporal coherent patterns in large-scale neural recordings using dynamic mode decomposition arXiv:1409.5496</ref>的方法。这种方法是另一种与因果涌现中粗粒化策略相近的，将误差最小化作为主要目标来进行优化的方法。模型约简和动力学模式分解虽然都和模型粗粒化十分接近，但是它们都没有基于有效信息的优化，本质上都是默认了一定程度上的损失信息，同时也不会增强因果效应的。在文献<ref>Liu K, Yuan B, Zhang J. An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems[J]. arXiv preprint arXiv:2405.09207, 2024.</ref>中，作者们证明了其实误差最小化解集包含了有效信息最大化的最优解集，因此如果要优化因果涌现，可以先最小化误差，在最小误差的解集中寻找最佳的粗粒化策略。

+

===马尔科夫链的简化===

−

[[马尔科夫链的简化]]（或叫做[[马尔科夫链的粗粒化]]~~）也和因果涌现有着重要的联系，因果涌现中的粗粒化过程本质上就是马尔科夫链的简化。马尔可夫过程的模型简化~~<ref>Zhang A, Wang M. Spectral state compression of markov processes[J]. IEEE transactions on information theory, 2019, 66(5): 3202-3231.</ref>是状态转移系统建模中的一个重要问题，它是通过将多个状态合并成一个状态以降低马尔科夫链的复杂度。

+

[[马尔科夫链的简化]]（或叫做[[马尔科夫链的粗粒化]]）也和因果涌现有着重要的联系，因果涌现中的粗粒化过程本质上就是马尔科夫链的简化。马尔科夫过程的模型简化<ref>Zhang A, Wang M. Spectral state compression of markov processes[J]. IEEE transactions on information theory, 2019, 66(5): 3202-3231.</ref>是状态转移系统建模中的一个重要问题，它是通过将多个状态合并成一个状态以降低马尔科夫链的复杂度。

+

做简化的意义主要有三点，第一，我们在研究一个超大规模系统的时候，并不会关注每一个微观状态的变化。因此，在粗粒化中我们希望能过滤掉一些我们不感兴趣的噪声和异质性，而从微观尺度中总结出一些中尺度或宏观尺度的规律；第二，有些状态的转移概率非常相似，所以可以被看成同一类状态，对这种状态做聚类（也称为对状态做划分，即 Partitioning），从而得到新的更小的马尔科夫链可以减少系统表示的冗余性；第三，在用到马尔科夫决策过程的强化学习里，对马尔科夫链做粗粒化可以减少状态空间的大小，提高训练效率。在许多文献中，粗粒化（coarse-graining）和降维（dimension reduction）是等价的<ref>Coarse graining. ''Encyclopedia of Mathematics.'' URL: <nowiki>http://encyclopediaofmath.org/index.php?title=Coarse_graining&oldid=16170</nowiki></ref>。

−

做简化的意义主要有三点，第一，我们在研究一个超大规模系统的时候，并不会关注每一个微观状态的变化。因此，在粗粒化中我们希望能过滤掉一些我们不感兴趣的噪声和异质性，而从微观尺度中总结出一些中尺度或宏观尺度的规律；第二，有些状态的转移概率非常相似，所以可以被看成同一类状态，对这种状态做聚类（也称为对状态做划分，即Partitioning），从而得到新的更小的马尔科夫链可以减少系统表示的冗余性；第三，在用到马尔科夫决策过程的强化学习里，对马尔科夫链做粗粒化可以减少状态空间的大小，提高训练效率。在许多文献中，粗粒化（coarse-graining）和降维（dimension reduction）是等价的<ref>Coarse graining. ''Encyclopedia of Mathematics.'' URL: <nowiki>http://encyclopediaofmath.org/index.php?title=Coarse_graining&oldid=16170</nowiki></ref>。

其中，对状态空间做粗粒化有硬分组（Hard Partitioning）和软分组（Soft Partitioning）两种。软分组可以看作是把微观状态打散重构出一些宏观状态的过程，并允许微观态的叠加而得到宏观态；而硬分组则是严格的微观态分组，把若干个微观状态分成一个组，不允许重叠和叠加（参见[[马尔科夫链的粗粒化]]）。

+

马尔科夫链的粗粒化不仅要对状态空间做，也要对转移矩阵做，也就是根据状态的分组简化原转移矩阵以得到新的更小的转移矩阵。除此之外，还要对状态向量做约简。因此，一个完整的粗粒化过程需要同时考虑状态、转移矩阵、状态向量的粗粒化。于是，这就引出了一个新的问题，即状态分组得到的新马尔科夫链中的转移概率应该如何计算？同时，归一化条件是否能够得到保证？

+

除了这些基本保证之外，我们通常还要求对转移矩阵的粗粒化操作应该与转移矩阵是可交换的，这一条件能够保证经过粗粒化后的状态向量再经过粗粒化的转移矩阵（相当于宏观动力学）的一步演化，是等价于先对状态向量进行一步转移矩阵演化（相当于微观动力学），之后再进行粗粒化的。这就同时为状态分组（状态的粗粒化过程）以及转移矩阵的粗粒化过程提出了要求。这一可交换性的要求，就导致人们提出了[[马尔科夫链可聚类性]]的要求。

−

针对任意的状态硬划分，我们可以定义所谓的可聚类性（lumpability）的概念。可聚类性（Lumpability）是一种对聚类的衡量，这个概念最早出现在Kemeny, Snell在1969年的有限马尔科夫链（Finite Markov Chains）<ref name=":33">Kemeny, John G., and J. Laurie Snell. ''Finite markov chains''. Vol. 26. Princeton, NJ: van Nostrand, 1969. https://www.math.pku.edu.cn/teachers/yaoy/Fall2011/Kemeny-Snell_Chapter6.3-4.pdf</ref>中。可聚类性（Lumpability）就是一个数学条件，用来判断“对于某一种硬分块的微观状态分组方案，是否对微观状态转移矩阵是可约简的”。不管状态空间按照哪一个硬分块方案做分类，它都有对应后续的对转移矩阵和概率空间的粗粒化方案<ref>Buchholz, Peter. "Exact and ordinary lumpability in finite Markov chains." ''Journal of applied probability'' 31.1 (1994): 59-75.</ref>。

−

假设对马尔科夫状态空间'''<math>A</math>''' 给定了分组方法'''<math>A=\{A_1, A_2, ... ,A_r\}</math>''' ，这里[math]A_i[/math]是状态空间'''<math>A</math>''' 的任意一个子集，且满足[math]A_i\cap A_j= \Phi[/math]，[math]\Phi[/math]表示空集。[math]\displaystyle{ s^{(t)} }[/math]表示系统在[math]\displaystyle{ t }[/math]时刻的微观状态，微观状态空间为[math]\displaystyle{ S=\{s_1, s_2, ... ,s_n\} }[/math]且微观状态'''<math>s_i\in A</math>'''都是马尔科夫状态空间中的独立元素，设微观状态<math>s_k</math>到<math>s_m</math>的转移概率为<math>p_{s_k \rightarrow s_m} = p(s^{(t)} = s_m | s^{(t-1)} = s_k)</math>，微观状态<math>s_k</math>到宏观状态<math>A_i</math>的转移概率为<math>p_{s_k \rightarrow A_i} = p(s^{(t)} \in A_i | s^{(t-1)} = s_k)</math>，则可聚类的充分必要条件为，对于任意一对<math>A_i, A_j</math>，每一个属于<math>A_i</math>的状态<math>s_k</math>的<math>p_{s_k \rightarrow A_j}</math>~~都是相等的，即~~{{NumBlk|:|

+

针对任意的状态硬划分，我们可以定义所谓的可聚类性（lumpability）的概念。可聚类性（Lumpability）是一种对聚类的衡量，这个概念最早出现在 Kemeny, Snell 在 1969 年的有限马尔科夫链（Finite Markov Chains）<ref name=":33">Kemeny, John G., and J. Laurie Snell. ''Finite markov chains''. Vol. 26. Princeton, NJ: van Nostrand, 1969. https://www.math.pku.edu.cn/teachers/yaoy/Fall2011/Kemeny-Snell_Chapter6.3-4.pdf</ref>中。可聚类性（Lumpability）就是一个数学条件，用来判断“对于某一种硬分块的微观状态分组方案，是否对微观状态转移矩阵是可约简的”。不管状态空间按照哪一个硬分块方案做分类，它都有对应后续的对转移矩阵和概率空间的粗粒化方案<ref>Buchholz, Peter. "Exact and ordinary lumpability in finite Markov chains." ''Journal of applied probability'' 31.1 (1994): 59-75.</ref>。

+

假设对马尔科夫状态空间 '''<math>A</math>''' 给定了分组方法 '''<math>A=\{A_1, A_2, ... ,A_r\}</math>'''，这里 [math]A_i[/math] 是状态空间 '''<math>A</math>''' 的任意一个子集，且满足 [math]A_i\cap A_j= \Phi[/math]，[math]\Phi[/math] 表示空集。[math]\displaystyle{ s^{(t)} }[/math] 表示系统在 [math]\displaystyle{ t }[/math] 时刻的微观状态，微观状态空间为 [math]\displaystyle{ S=\{s_1, s_2, ... ,s_n\} }[/math] 且微观状态 '''<math>s_i\in A</math>''' 都是马尔科夫状态空间中的独立元素，设微观状态 <math>s_k</math> 到 <math>s_m</math> 的转移概率为 <math>p_{s_k \rightarrow s_m} = p(s^{(t)} = s_m | s^{(t-1)} = s_k)</math>，微观状态 <math>s_k</math> 到宏观状态 <math>A_i</math> 的转移概率为 <math>p_{s_k \rightarrow A_i} = p(s^{(t)} \in A_i | s^{(t-1)} = s_k)</math>，则可聚类的充分必要条件为，对于任意一对 <math>A_i, A_j</math>，每一个属于 <math>A_i</math> 的状态 <math>s_k</math> 的<math>p_{s_k \rightarrow A_j}</math> 都是相等的，即：

+

{{NumBlk|:|

<math>

\begin{aligned}

第740行：第789行：

\end{aligned}

</math>

−

|{{EquationRef|4}}}}关于具体的粗粒化马尔科夫链的方法，请参考[[马尔科夫链的粗粒化]]。

+

|{{EquationRef|4}}}}

+

关于具体的粗粒化马尔科夫链的方法，请参考[[马尔科夫链的粗粒化]]。

+

==参考文献==

+

==编者推荐==

下面是一些链接能够帮助读者更好的了解因果涌现的相关信息：

+

===因果涌现读书会===

*[https://campus.swarma.org/course/3110 因果涌现读书会简介]

[[文件:读书会通过阅读前沿文献，加深我们对因果、涌现等概念的理解；聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。.jpg|缩略图|370x370px|读书会通过阅读前沿文献，加深我们对因果、涌现等概念的理解；聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。]]分享近期发展起来的一些理论与工具，包括因果涌现理论、机器学习驱动的重整化技术，以及自指动力学正在发展一套跨尺度的分析框架等。

+

*[https://pattern.swarma.org/study_group/7 因果涌现读书会第一季]

+

涌现现象无非是复杂系统中诸多现象中最神秘莫测的一个，而Erik Hoel提出的“因果涌现”理论为这种跨层次的奇妙涌现现象提供了一种新的可能解释途径。通过跨层次的粗粒化（Coarse-graining, 或称重整化Renormalization）操作，我们便可以在同一个动力学系统上在不同的尺度得到完全不同的动力学，通过本季读书会梳理，我们希望探讨这一新兴领域的前沿进展，衍生更多新的研究课题。

−

涌现现象无非是复杂系统中诸多现象中最神秘莫测的一个，而Erik Hoel提出的“因果涌现”理论为这种跨层次的奇妙涌现现象提供了一种新的可能解释途径。通过跨层次的粗粒化（Coarse-graining, 或称重整化Renormalization）操作，我们便可以在同一个动力学系统上在不同的尺度得到完全不同的动力学，通过本季读书会梳理，我们希望探讨这一新兴领域的前沿进展，衍生更多新的研究课题。

*[https://pattern.swarma.org/study_group/16 因果涌现读书会第二季]

+

涌现与因果的结合创造了因果涌现的概念。这是一套利用因果性来定量刻画涌现的理论体系，本季读书会通过阅读前沿文献，加深我们对因果、涌现等概念的理解；聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。第二季读书会更加集中在探讨因果科学与因果涌现之间的关系，以及对涌现进行定量刻画，聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。

−

涌现与因果的结合创造了因果涌现的概念。这是一套利用因果性来定量刻画涌现的理论体系，本季读书会通过阅读前沿文献，加深我们对因果、涌现等概念的理解；聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。第二季读书会更加集中在探讨因果科学与因果涌现之间的关系，以及对涌现进行定量刻画，聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向；并探索复杂系统多尺度自动建模的研究方向。

*[https://pattern.swarma.org/study_group/28 因果涌现读书会第三季]

+

因果涌现第三季的读书会中，将进一步围绕因果涌现的核心研究问题『因果涌现的定义』以及『因果涌现的辨识』来进行深入的学习和讨论，对 Erik Hoel 提出的 Causal Emergence，Causal Geometry 等因果涌现的核心理论进行深入的探讨和剖析，并且详细梳理其中涉及到的方法论，包括从动力学约简、隐空间动力学学习等其他研究领域中学习和借鉴相关的研究思路，最后探讨因果涌现的应用，包括基于生物网络、脑网络或者涌现探测等问题展开扩展，发掘更多的实际应用场景。

−

因果涌现第三季的读书会中，将进一步围绕因果涌现的核心研究问题『因果涌现的定义』以及『因果涌现的辨识』来进行深入的学习和讨论，对 Erik Hoel 提出的 Causal Emergence，Causal Geometry 等因果涌现的核心理论进行深入的探讨和剖析，并且详细梳理其中涉及到的方法论，包括从动力学约简、隐空间动力学学习等其他研究领域中学习和借鉴相关的研究思路，最后探讨因果涌现的应用，包括基于生物网络、脑网络或者涌现探测等问题展开扩展，发掘更多的实际应用场景。

===路径推荐===

第771行：第827行：

----

此词条由[[王志鹏]]、[[张江]]和[[刘凯威]]编写，[[张江]]、[[王志鹏]]整理和审校。

+

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

Complexivist Ran

150

个编辑

更改

因果涌现 (查看源代码)

2024年11月3日 (日) 10:21的版本

导航菜单

搜索