更改

因果涌现 (查看源代码)

2024年7月13日 (六) 15:18的版本

添加2,875字节、 2024年7月13日 (星期六)

无编辑摘要

第5行：第5行：

===涌现===

−

涌现一直是复杂系统中的一个重要特性和研究对象，是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref name=":7">Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和，即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管在各个领域都被指出存在涌现的现象<ref name=":7" /><ref>Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.</ref>，如鸟类的群体行为<ref>Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.</ref>，大脑中的意识形成，以及大语言模型的涌现能力<ref>Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.</ref>，但目前还没有对这一现象的统一理解。以往对涌现有很多定性的研究，如 Bedau et al<ref>Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef] </ref><ref>Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50. </ref>对涌现进行了分类，可以将涌现分为名义涌现<ref>Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.</ref><ref>Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.</ref>、弱涌现[~~10,71~~]与强涌现~~[17~~,~~72]~~。名义涌现可以理解为能被宏观层级的模式或过程所拥有，但不能被其微观层级的组件所拥有的属性~~[69,70]~~。弱涌现是指宏观层面的属性或过程是通过单个组件之间以复杂的方式相互作用产生的，由于计算不可约性的原理，它们不能轻易地简化为微观层面的属性。对于弱涌现来说，其模式产生的原因可能来自微观和宏观两个层面~~[17,72]~~。因此，涌现的因果关系可能与微观因果关系并存。而对于强涌现来说存在很多的争论，它指的是宏观层面的属性，原则上不能简化为微观层面的属性，包括个体之间的相互作用。此外，Jochen Fromm进一步将强涌现解释为[[向下因果]]的因果效应~~[18]~~。考虑一个包含三个不同尺度的系统:微观、介观和宏观。向下因果关系是指从宏观层面向介观层面或从介观层面向微观层面的因果力。然而，关于向下因果关系本身的概念存在许多争议[~~64,68~~]。

+

涌现一直是复杂系统中的一个重要特性和研究对象，是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref name=":7">Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和，即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管在各个领域都被指出存在涌现的现象<ref name=":7" /><ref>Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.</ref>，如鸟类的群体行为<ref>Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.</ref>，大脑中的意识形成，以及大语言模型的涌现能力<ref>Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.</ref>，但目前还没有对这一现象的统一理解。以往对涌现有很多定性的研究，如 Bedau et al<ref name=":9">Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef] </ref><ref>Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50. </ref>对涌现进行了分类，可以将涌现分为名义涌现<ref name=":10">Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.</ref><ref name=":11">Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.</ref>、弱涌现<ref name=":9" /><ref>Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]</ref>与强涌现<ref name=":12">Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138. </ref><ref name=":13">O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104</ref>。名义涌现可以理解为能被宏观层级的模式或过程所拥有，但不能被其微观层级的组件所拥有的属性<ref name=":10" /><ref name=":11" />。弱涌现是指宏观层面的属性或过程是通过单个组件之间以复杂的方式相互作用产生的，由于计算不可约性的原理，它们不能轻易地简化为微观层面的属性。对于弱涌现来说，其模式产生的原因可能来自微观和宏观两个层面<ref name=":12" /><ref name=":13" />。因此，涌现的因果关系可能与微观因果关系并存。而对于强涌现来说存在很多的争论，它指的是宏观层面的属性，原则上不能简化为微观层面的属性，包括个体之间的相互作用。此外，Jochen Fromm进一步将强涌现解释为[[向下因果]]的因果效应<ref>Fromm, J. Types and forms of emergence. arXiv 2005, arXiv:nlin/0506028</ref>。考虑一个包含三个不同尺度的系统:微观、介观和宏观。向下因果关系是指从宏观层面向介观层面或从介观层面向微观层面的因果力。然而，关于向下因果关系本身的概念存在许多争议<ref>Bedau, M.A.; Humphreys, P. Emergence: Contemporary Readings in Philosophy and Science; MIT Press: Cambridge, MA, USA, 2008. </ref><ref>Yurchenko, S.B. Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? TechRxiv 2023 . [CrossRef] </ref>。

===早期相工作===

第19行：第19行：

====其他定量刻画涌现的理论====

−

此外，也存在一些其他的涌现定量理论，主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解[[涌现]]，Moez Mnif和Christian meller-schloer~~[81]~~使用香农熵来度量有序和无序。在[[自组织]]过程中，当秩序增加时就会出现涌现，通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加，然而该方法存在一些缺陷：依赖于抽象的观察水平以及系统初始条件的选择，为了克服这两种困难，作者提出了一种与最大熵分布相比的度量香农熵的相对水平的方法。受Moez mif和Christian meller-schloer工作的启发，参考文献~~[83]~~建议使用两个概率分布之间的散度能更好地量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题，文献[84]进一步提出了一种使用高斯混合模型估计密度的近似方法，并引入马氏距离来表征数据与高斯分量之间的差异，从而得到了更好的结果。此外，Holzer和de Meer~~[86,87]~~<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref>等人提出了另一种基于Shannon熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程，在这个过程中，不同的个体通过通信相互作用。然后，可以根据代理之间所有通信的香农熵度量与作为单独源的每次通信的香农熵总和之间的比率来测量涌现。另一种是从“整体大于部分之和”的角度来理解涌现[~~88,89~~]，该方法定义来自交互规则和代理状态的涌现，而不是整个系统的总体统计度量。具体地说，这个度量由两个相互相减的项组成。第一项描述了整个系统的集体状态，而第二项代表了所有组成部分的单个状态的总和，该度量强调涌现产生于系统的相互作用和集体行为。

+

此外，也存在一些其他的涌现定量理论，主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解[[涌现]]，Moez Mnif和Christian meller-schloer<ref>Mnif, M.; Müller-Schloer, C. Quantitative emergence. In Organic Computing—A Paradigm Shift for Complex Systems; Springer: Basel, Switzerland, 2011; pp. 39–52. </ref>使用香农熵来度量有序和无序。在[[自组织]]过程中，当秩序增加时就会出现涌现，通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加，然而该方法存在一些缺陷：依赖于抽象的观察水平以及系统初始条件的选择，为了克服这两种困难，作者提出了一种与最大熵分布相比的度量香农熵的相对水平的方法。受Moez mif和Christian meller-schloer工作的启发，参考文献<ref>Fisch, D.; Jänicke, M.; Sick, B.; Müller-Schloer, C. Quantitative emergence–A refined approach based on divergence measures. In Proceedings of the 2010 Fourth IEEE International Conference on Self-Adaptive and Self-Organizing Systems, Budapest, Hungary, 27 September–1 October 2010; IEEE Computer Society: Washington, DC, USA, 2010; pp. 94–103. </ref>建议使用两个概率分布之间的散度能更好地量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题，文献<ref>Fisch, D.; Fisch, D.; Jänicke, M.; Kalkowski, E.; Sick, B. Techniques for knowledge acquisition in dynamically changing environments. ACM Trans. Auton. Adapt. Syst. (TAAS) 2012, 7, 1–25. [CrossRef] </ref>进一步提出了一种使用高斯混合模型估计密度的近似方法，并引入马氏距离来表征数据与高斯分量之间的差异，从而得到了更好的结果。此外，Holzer和de Meer<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref><ref>Holzer, R.; de Meer, H. Methods for approximations of quantitative measures in self-organizing systems. In Proceedings of the Self-Organizing Systems: 5th International Workshop, IWSOS 2011, Karlsruhe, Germany, 23–24 February 2011; Proceedings 5; Springer: Berlin/Heidelberg, Germany, 2011; pp. 1–15.</ref>等人提出了另一种基于Shannon熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程，在这个过程中，不同的个体通过通信相互作用。然后，可以根据代理之间所有通信的香农熵度量与作为单独源的每次通信的香农熵总和之间的比率来测量涌现。另一种是从“整体大于部分之和”的角度来理解涌现<ref>Teo, Y.M.; Luong, B.L.; Szabo, C. Formalization of emergence in multi-agent systems. In Proceedings of the 1st ACM SIGSIM Conference on Principles of Advanced Discrete Simulation, Montreal, QC, Canada, 19–22 May 2013; pp. 231–240. </ref><ref>Szabo, C.; Teo, Y.M. Formalization of weak emergence in multiagent systems. ACM Trans. Model. Comput. Simul. (TOMACS) 2015, 26, 1–25. [CrossRef] </ref>，该方法定义来自交互规则和代理状态的涌现，而不是整个系统的总体统计度量。具体地说，这个度量由两个相互相减的项组成。第一项描述了整个系统的集体状态，而第二项代表了所有组成部分的单个状态的总和，该度量强调涌现产生于系统的相互作用和集体行为。

===因果及其度量===

−

上述的一些定量量化涌现的方法往往没有考虑因果关系，最接近的也只是使用格兰杰因果不是真正的因果。随着近年来因果科学理论得到了进一步的发展，使得可以用数学框架来量化因果，因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref name=":8">Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref name=":8" />利用概率图形模型来描述因果相互作用。Pearl用不同的模型来区分并量化了三个层次的因果关系，这里我们比较关注因果阶梯中的第二层：对输入分布做干预。此外，由于发现的因果关系背后的不确定性和模糊性，测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括休谟的恒定连接概念~~[38]~~和基于值函数的方法~~[39]~~，Eells和Suppes将概率的提高作为因果关系的度量~~[41~~,~~42]~~，以及Judea Pearl的因果度量~~[16]~~。

+

上述的一些定量量化涌现的方法往往没有考虑因果关系，最接近的也只是使用格兰杰因果不是真正的因果。随着近年来因果科学理论得到了进一步的发展，使得可以用数学框架来量化因果，因果描述的是一个动力学过程的因果效应<ref name=":14">Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref name=":8">Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref name=":8" />利用概率图形模型来描述因果相互作用。Pearl用不同的模型来区分并量化了三个层次的因果关系，这里我们比较关注因果阶梯中的第二层：对输入分布做干预。此外，由于发现的因果关系背后的不确定性和模糊性，测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括休谟的恒定连接概念<ref>Spirtes, P.; Glymour, C.; Scheines, R. Causation Prediction and Search, 2nd ed.; MIT Press: Cambridge, MA, USA, 2000.</ref>和基于值函数的方法<ref>Chickering, D.M. Learning equivalence classes of Bayesian-network structures. J. Mach. Learn. Res. 2002, 2, 445–498.</ref>，Eells和Suppes将概率的提高作为因果关系的度量<ref>Eells, E. Probabilistic Causality; Cambridge University Press: Cambridge, UK, 1991; Volume 1</ref><ref>Suppes, P. A probabilistic theory of causality. Br. J. Philos. Sci. 1973, 24, 409–410.</ref>，以及Judea Pearl的因果度量<ref name=":14" />。

同时涌现和因果也是相互联系的：一方面，涌现是[[复杂系统 Complex Systems|复杂系统]]中各组成部分之间复杂的非线性相互作用的因果效应；另一方面，涌现特性也会对复杂系统中的个体产生因果关系。因此，可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量，提出了因果涌现这一概念，并且使用[[有效信息]]（Effective Information，简称EI）来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系，同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来，因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如，可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />，表示存在宏观到微观的因果效应。例如，壁虎断尾现象，当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉，这里整体是因，尾巴是果，那么就存在一个整体指向个体的因果力。

第253行：第253行：

===因果科学===

−

因果涌现能够在分布外场景中增强机器学习的性能，EI中引入的do干预捕获了数据生成过程中的因果依赖性，抑制了虚假相关，从而补充了基于关联的机器学习算法，建立了EI与分布外泛化（OOD）的联系。由于[[有效信息|EI]]的通用性，因果涌现可以应用于监督机器学习来评估特征空间X与目标空间Y之间的因果关系强度，从而提高了从原因(特征)到结果(目标)的预测。值得注意的是，对观测值从X到Y的直接拟合足以满足具有i.i.d.假设的常见预测任务，这意味着训练数据和测试数据是独立且同分布的。然而，如果样本是从训练分布之外抽取的，就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于统计相关性~~[126]~~，因此因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素，从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的OOD泛化提供一个统一的表征度量。EI也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外，我们猜想，分布外泛化可以在最大化EI的同时实现，EI可能会在原始特征抽象的中期阶段达到顶峰，这与OOD泛化的思想一致，即少即是多。理想情况下，当因果涌现发生在EI的峰值处，所有非因果特征被排除，因果特征被揭示，从而产生最具信息量的表示，同时保持分布变化不变。

+

因果涌现能够在分布外场景中增强机器学习的性能，EI中引入的do干预捕获了数据生成过程中的因果依赖性，抑制了虚假相关，从而补充了基于关联的机器学习算法，建立了EI与分布外泛化（OOD）的联系。由于[[有效信息|EI]]的通用性，因果涌现可以应用于监督机器学习来评估特征空间X与目标空间Y之间的因果关系强度，从而提高了从原因(特征)到结果(目标)的预测。值得注意的是，对观测值从X到Y的直接拟合足以满足具有i.i.d.假设的常见预测任务，这意味着训练数据和测试数据是独立且同分布的。然而，如果样本是从训练分布之外抽取的，就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于统计相关性<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893.</ref>，因此因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素，从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的OOD泛化提供一个统一的表征度量。EI也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外，我们猜想，分布外泛化可以在最大化EI的同时实现，EI可能会在原始特征抽象的中期阶段达到顶峰，这与OOD泛化的思想一致，即少即是多。理想情况下，当因果涌现发生在EI的峰值处，所有非因果特征被排除，因果特征被揭示，从而产生最具信息量的表示，同时保持分布变化不变。

===因果模型抽象===

Complexivist Ran

150

个编辑

更改

因果涌现 (查看源代码)

2024年7月13日 (六) 15:18的版本

导航菜单

搜索