更改

添加53字节 、 2024年11月1日 (星期五)
无编辑摘要
第9行: 第9行:  
====涌现====
 
====涌现====
 
[[涌现]]一直是[[复杂系统]]中的一个重要特性,是许多关于系统[[复杂性]],以及宏微观之间关系讨论的核心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref name=":7">Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管学者们在各个领域都指出存在涌现的现象<ref name=":7" /><ref>Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.</ref>,如鸟类的[[群体行为]]<ref>Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.</ref>,大脑中的[[意识]]形成,以及大语言模型的[[涌现]]能力<ref>Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.</ref>,但目前还没有对这一现象普遍认可的统一理解。以往对涌现的研究大多停留在定性的阶段,如 Bedau et al<ref name=":9">Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef] </ref><ref>Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50. </ref>对涌现进行了分类研究,即将涌现分为名义涌现<ref name=":10">Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.</ref><ref name=":11">Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.</ref>、弱涌现<ref name=":9" /><ref>Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]</ref>与强涌现<ref name=":12">Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138. </ref><ref name=":13">O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104</ref>。
 
[[涌现]]一直是[[复杂系统]]中的一个重要特性,是许多关于系统[[复杂性]],以及宏微观之间关系讨论的核心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref name=":7">Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管学者们在各个领域都指出存在涌现的现象<ref name=":7" /><ref>Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.</ref>,如鸟类的[[群体行为]]<ref>Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.</ref>,大脑中的[[意识]]形成,以及大语言模型的[[涌现]]能力<ref>Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.</ref>,但目前还没有对这一现象普遍认可的统一理解。以往对涌现的研究大多停留在定性的阶段,如 Bedau et al<ref name=":9">Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef] </ref><ref>Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50. </ref>对涌现进行了分类研究,即将涌现分为名义涌现<ref name=":10">Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.</ref><ref name=":11">Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.</ref>、弱涌现<ref name=":9" /><ref>Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]</ref>与强涌现<ref name=":12">Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138. </ref><ref name=":13">O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104</ref>。
 +
    
* [[名义涌现]]可以理解为能被宏观层级所拥有,而微观层次没有的属性和模式,例如若干像素构成的圆这一形状就是一种名义涌现<ref name=":10" /><ref name=":11" />。
 
* [[名义涌现]]可以理解为能被宏观层级所拥有,而微观层次没有的属性和模式,例如若干像素构成的圆这一形状就是一种名义涌现<ref name=":10" /><ref name=":11" />。
 +
 +
 
* [[弱涌现]]是指宏观层面的属性或过程是通过单个组件之间以复杂相互作用的方式产生的,或者弱涌现也可以被理解为原则上能够被计算机模拟的特性。由于[[计算不可约性]]原理,弱涌现特性即使能够被模拟,但仍然不能轻易地简化为微观层面的属性。对于弱涌现来说,其模式产生的原因可能来自微观和宏观两个层面<ref name=":12" /><ref name=":13" />,因此,涌现的因果关系可能与微观因果关系并存。
 
* [[弱涌现]]是指宏观层面的属性或过程是通过单个组件之间以复杂相互作用的方式产生的,或者弱涌现也可以被理解为原则上能够被计算机模拟的特性。由于[[计算不可约性]]原理,弱涌现特性即使能够被模拟,但仍然不能轻易地简化为微观层面的属性。对于弱涌现来说,其模式产生的原因可能来自微观和宏观两个层面<ref name=":12" /><ref name=":13" />,因此,涌现的因果关系可能与微观因果关系并存。
 +
 +
 
* 而对于[[强涌现]]来说存在很多的争论,它指的是宏观层面的属性,原则上不能简化为微观层面的属性,包括个体之间的相互作用。此外,Jochen Fromm 进一步将强涌现解释为[[向下因果]]的[[因果效应]]<ref>Fromm, J. Types and forms of emergence. arXiv 2005, arXiv:nlin/0506028</ref>。[[向下因果]]关系是指从宏观层面向微观层面的[[因果力]]。然而,关于[[向下因果]]关系本身的概念存在许多争议<ref>Bedau, M.A.; Humphreys, P. Emergence: Contemporary Readings in Philosophy and Science; MIT Press: Cambridge, MA, USA, 2008. </ref><ref>Yurchenko, S.B. Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? TechRxiv 2023 . [CrossRef] </ref>。
 
* 而对于[[强涌现]]来说存在很多的争论,它指的是宏观层面的属性,原则上不能简化为微观层面的属性,包括个体之间的相互作用。此外,Jochen Fromm 进一步将强涌现解释为[[向下因果]]的[[因果效应]]<ref>Fromm, J. Types and forms of emergence. arXiv 2005, arXiv:nlin/0506028</ref>。[[向下因果]]关系是指从宏观层面向微观层面的[[因果力]]。然而,关于[[向下因果]]关系本身的概念存在许多争议<ref>Bedau, M.A.; Humphreys, P. Emergence: Contemporary Readings in Philosophy and Science; MIT Press: Cambridge, MA, USA, 2008. </ref><ref>Yurchenko, S.B. Can there be a synergistic core emerging in the brain hierarchy to control neural activity by downward causation? TechRxiv 2023 . [CrossRef] </ref>。
 +
    
由这些早期研究可以看出,涌现与因果有着天然的深刻联系。
 
由这些早期研究可以看出,涌现与因果有着天然的深刻联系。
第22行: 第28行:     
随着近年来[[因果科学]]得到了进一步的发展,使得人们可以用数学框架来量化因果,[[因果]]描述的是一个动力学过程的[[因果效应]]<ref name=":14">Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref name=":8">Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref name=":8" />利用[[概率图模型]]来描述因果相互作用。Pearl 用不同的模型来区分并量化了三个层次的因果关系,这里我们比较关注[[因果阶梯]]中的第二层:对输入分布做[[干预]]。此外,由于发现的因果关系背后的不确定性和模糊性,测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括[[休谟]]的[[恒定连接概念]]<ref>Spirtes, P.; Glymour, C.; Scheines, R. Causation Prediction and Search, 2nd ed.; MIT Press: Cambridge, MA, USA, 2000.</ref>和基于值函数的方法<ref>Chickering, D.M. Learning equivalence classes of Bayesian-network structures. J. Mach. Learn. Res. 2002, 2, 445–498.</ref>,Eells 和 Suppes 的概率性因果度量<ref>Eells, E. Probabilistic Causality; Cambridge University Press: Cambridge, UK, 1991; Volume 1</ref><ref>Suppes, P. A probabilistic theory of causality. Br. J. Philos. Sci. 1973, 24, 409–410.</ref>,以及 Judea Pearl 的[[因果度量]]指标等<ref name=":14" />。
 
随着近年来[[因果科学]]得到了进一步的发展,使得人们可以用数学框架来量化因果,[[因果]]描述的是一个动力学过程的[[因果效应]]<ref name=":14">Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref name=":8">Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref name=":8" />利用[[概率图模型]]来描述因果相互作用。Pearl 用不同的模型来区分并量化了三个层次的因果关系,这里我们比较关注[[因果阶梯]]中的第二层:对输入分布做[[干预]]。此外,由于发现的因果关系背后的不确定性和模糊性,测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括[[休谟]]的[[恒定连接概念]]<ref>Spirtes, P.; Glymour, C.; Scheines, R. Causation Prediction and Search, 2nd ed.; MIT Press: Cambridge, MA, USA, 2000.</ref>和基于值函数的方法<ref>Chickering, D.M. Learning equivalence classes of Bayesian-network structures. J. Mach. Learn. Res. 2002, 2, 445–498.</ref>,Eells 和 Suppes 的概率性因果度量<ref>Eells, E. Probabilistic Causality; Cambridge University Press: Cambridge, UK, 1991; Volume 1</ref><ref>Suppes, P. A probabilistic theory of causality. Br. J. Philos. Sci. 1973, 24, 409–410.</ref>,以及 Judea Pearl 的[[因果度量]]指标等<ref name=":14" />。
 +
    
====因果涌现====
 
====因果涌现====
第45行: 第52行:     
计算力学将任意的子集 <math>R \in \mathcal{R}</math> 看作是一个宏观状态。对于一组宏观状态集合 <math>\mathcal{R}</math>,计算力学使用香农熵定义了指标 <math>C_\mu</math>,用来衡量这组状态的统计复杂性。其中:
 
计算力学将任意的子集 <math>R \in \mathcal{R}</math> 看作是一个宏观状态。对于一组宏观状态集合 <math>\mathcal{R}</math>,计算力学使用香农熵定义了指标 <math>C_\mu</math>,用来衡量这组状态的统计复杂性。其中:
 +
    
<math>
 
<math>
 
C_\mu(\mathcal{R})\triangleq -\sum_{\rho\in \mathcal{R}} P(\mathcal{R}=\rho)\log_2 P(\mathcal{R}=\rho)
 
C_\mu(\mathcal{R})\triangleq -\sum_{\rho\in \mathcal{R}} P(\mathcal{R}=\rho)\log_2 P(\mathcal{R}=\rho)
 
</math>
 
</math>
 +
    
可以证明,当使用一组状态构建预测模型时,这组状态的统计复杂性就近似等价于预测模型的大小。
 
可以证明,当使用一组状态构建预测模型时,这组状态的统计复杂性就近似等价于预测模型的大小。
第73行: 第82行:     
具体来说,如果我们使用二元自回归模型进行预测,当只存在两个变量 A 和 B 时,[[自回归模型]]存在两个等式,每个等式对应其中一个变量,每个变量的当前时刻值都是由它自身和另外一个变量在滞后一定时间范围内的数值构成。另外,该模型还会计算残差,这里残差可以理解为预测误差,可以用来衡量每一个等式的格兰杰因果效应程度(称为 G-causality)。B 作为 A 的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B时A的自回归模型的残差,另一个是全预测模型(包含了 A 和 B)的残差。此外,作者还定义了“G 自主性(G-autonomous)”的概念,表示一个时间序列的过去值可以预测自身的未来值的度量,可以用类似 G-causality 的方式来刻画这种自主预测的因果效应强度。
 
具体来说,如果我们使用二元自回归模型进行预测,当只存在两个变量 A 和 B 时,[[自回归模型]]存在两个等式,每个等式对应其中一个变量,每个变量的当前时刻值都是由它自身和另外一个变量在滞后一定时间范围内的数值构成。另外,该模型还会计算残差,这里残差可以理解为预测误差,可以用来衡量每一个等式的格兰杰因果效应程度(称为 G-causality)。B 作为 A 的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B时A的自回归模型的残差,另一个是全预测模型(包含了 A 和 B)的残差。此外,作者还定义了“G 自主性(G-autonomous)”的概念,表示一个时间序列的过去值可以预测自身的未来值的度量,可以用类似 G-causality 的方式来刻画这种自主预测的因果效应强度。
 +
    
[[文件:G Emergence Theory.png|G-emergence理论图|alt=G-emergence理论图|居左|400x300像素]]
 
[[文件:G Emergence Theory.png|G-emergence理论图|alt=G-emergence理论图|居左|400x300像素]]
 +
    
如上图所示,我们可以基于上述 G-causality 中的两个基本概念来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作 G-emergence)。如果把 A 理解为宏观变量,B 理解为微观变量。发生涌现的条件包含两个:1)A 是关于 B 的 G-autonomous;2)B 是 A 的 G-cause。其中 G-emergence 的程度是通过 A 的 G-autonomous 的程度与 B 的平均 G-cause 的程度的乘积来计算的。
 
如上图所示,我们可以基于上述 G-causality 中的两个基本概念来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作 G-emergence)。如果把 A 理解为宏观变量,B 理解为微观变量。发生涌现的条件包含两个:1)A 是关于 B 的 G-autonomous;2)B 是 A 的 G-cause。其中 G-emergence 的程度是通过 A 的 G-autonomous 的程度与 B 的平均 G-cause 的程度的乘积来计算的。
第94行: 第105行:  
===基于有效信息的因果涌现理论===
 
===基于有效信息的因果涌现理论===
 
历史上,第一个比较完整而明确的利用因果来定义涌现的定量理论当属 [[Erik Hoel]], [[Larissa Albantakis]] 以及 [[Giulio Tononi]] 三人提出的因果涌现理论<ref name=":0" /><ref name=":1" />。该理论针对[[马尔科夫链]]定义所谓的因果涌现为:粗粒化后的马尔科夫链比原始的马尔科夫链具有更大的因果效应强度的现象。这里,因果效应强度是通过[[有效信息]]来衡量的,该指标是对[[互信息]]指标的一种改造,主要差别是将 <math>t</math> 时刻的状态变量进行了[[do干预]],干预成了[[均匀分布]](或[[最大熵分布]])。[[有效信息]]指标早在2003年就被 [[Giulio Tononi]] 在研究[[整合信息论]]的时候提出,作为 [[Giulio Tononi]] 的学生 [[Erik Hoel]] 将有效信息应用到马尔科夫链中,提出了基于有效信息的因果涌现理论。
 
历史上,第一个比较完整而明确的利用因果来定义涌现的定量理论当属 [[Erik Hoel]], [[Larissa Albantakis]] 以及 [[Giulio Tononi]] 三人提出的因果涌现理论<ref name=":0" /><ref name=":1" />。该理论针对[[马尔科夫链]]定义所谓的因果涌现为:粗粒化后的马尔科夫链比原始的马尔科夫链具有更大的因果效应强度的现象。这里,因果效应强度是通过[[有效信息]]来衡量的,该指标是对[[互信息]]指标的一种改造,主要差别是将 <math>t</math> 时刻的状态变量进行了[[do干预]],干预成了[[均匀分布]](或[[最大熵分布]])。[[有效信息]]指标早在2003年就被 [[Giulio Tononi]] 在研究[[整合信息论]]的时候提出,作为 [[Giulio Tononi]] 的学生 [[Erik Hoel]] 将有效信息应用到马尔科夫链中,提出了基于有效信息的因果涌现理论。
 +
    
===基于信息分解的因果涌现理论===
 
===基于信息分解的因果涌现理论===
 
此外,2020 年,Rosas 等<ref name=":5" />从[[信息论|信息理论]]视角出发,提出一种基于[[信息分解]]的方法来定义系统中的因果涌现,基于[[协同信息]]或者[[冗余信息]]来定量的刻画涌现。所谓的[[信息分解]]是分析[[复杂系统]]中各个变量复杂相互关系的一种新方法,通过对信息进行分解,用信息原子来表示每个部分信息,同时借助[[信息晶格图]]将每个部分信息投射到[[信息原子]]中,其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在 Williams 和 Beer 等<ref name=":16">Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的[[多元信息非负分解]]理论的基础之上,文中使用[[部分信息分解]](PID)将微观态和宏观态的互信息进行分解。然而,PID 框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas 扩展了该框架,提出整合信息分解方法<math>\Phi ID </math><ref name=":18">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个源变量和多个目标变量之间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法。
 
此外,2020 年,Rosas 等<ref name=":5" />从[[信息论|信息理论]]视角出发,提出一种基于[[信息分解]]的方法来定义系统中的因果涌现,基于[[协同信息]]或者[[冗余信息]]来定量的刻画涌现。所谓的[[信息分解]]是分析[[复杂系统]]中各个变量复杂相互关系的一种新方法,通过对信息进行分解,用信息原子来表示每个部分信息,同时借助[[信息晶格图]]将每个部分信息投射到[[信息原子]]中,其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在 Williams 和 Beer 等<ref name=":16">Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的[[多元信息非负分解]]理论的基础之上,文中使用[[部分信息分解]](PID)将微观态和宏观态的互信息进行分解。然而,PID 框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas 扩展了该框架,提出整合信息分解方法<math>\Phi ID </math><ref name=":18">P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个源变量和多个目标变量之间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法。
 +
    
===近期工作===
 
===近期工作===
第115行: 第128行:  
====Erik Hoel的因果涌现理论====
 
====Erik Hoel的因果涌现理论====
 
Hoel 等于 2013 年<ref name=":0" /><ref name=":1" />提出因果涌现理论,下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,[math]f_m[/math] 表示微观动力学,[math]f_M[/math] 表示宏观动力学,二者通过一个粗粒化函数 [math]\phi[/math] 相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math] 和 [math]f_M[/math] 都是马尔科夫链,对 [math]f_m[/math] 进行[[马尔科夫链的粗粒化]],就可以得到 [math]f_M[/math]。<math> EI </math> 是[[有效信息]]的度量。由于微观态可能具有更大的随机性,这导致微观动力学的[[因果性]]比较弱,所以通过对每一个时刻的微观态进行合理的粗粒化,就有可能得到因果性更强的宏观态。所谓的因果涌现,就是指当我们对微观态进行粗粒化的时候,宏观动力学的[[有效信息]]会增加这一现象,并且宏观态与微观态的[[有效信息]]之差被定义为因果涌现的强度。
 
Hoel 等于 2013 年<ref name=":0" /><ref name=":1" />提出因果涌现理论,下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,[math]f_m[/math] 表示微观动力学,[math]f_M[/math] 表示宏观动力学,二者通过一个粗粒化函数 [math]\phi[/math] 相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math] 和 [math]f_M[/math] 都是马尔科夫链,对 [math]f_m[/math] 进行[[马尔科夫链的粗粒化]],就可以得到 [math]f_M[/math]。<math> EI </math> 是[[有效信息]]的度量。由于微观态可能具有更大的随机性,这导致微观动力学的[[因果性]]比较弱,所以通过对每一个时刻的微观态进行合理的粗粒化,就有可能得到因果性更强的宏观态。所谓的因果涌现,就是指当我们对微观态进行粗粒化的时候,宏观动力学的[[有效信息]]会增加这一现象,并且宏观态与微观态的[[有效信息]]之差被定义为因果涌现的强度。
 +
    
[[文件:因果涌现理论.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居左|400x400像素]]
 
[[文件:因果涌现理论.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居左|400x400像素]]
 +
    
=====有效信息=====
 
=====有效信息=====
第126行: 第141行:     
在[[马尔科夫链]]中,任意时刻的状态变量 [math]X_t[/math] 都可以看作是原因,而下一时刻的状态变量 [math]X_{t+1}[/math] 就可以看作是结果,这样[[马尔科夫链]]的[[状态转移矩阵]]就是它的[[因果机制]]。因此,针对[[马尔科夫链]]的 <math>EI</math> 的计算公式如下所示:
 
在[[马尔科夫链]]中,任意时刻的状态变量 [math]X_t[/math] 都可以看作是原因,而下一时刻的状态变量 [math]X_{t+1}[/math] 就可以看作是结果,这样[[马尔科夫链]]的[[状态转移矩阵]]就是它的[[因果机制]]。因此,针对[[马尔科夫链]]的 <math>EI</math> 的计算公式如下所示:
 +
    
<math>
 
<math>
第133行: 第149行:  
\end{aligned}
 
\end{aligned}
 
</math>
 
</math>
 +
    
其中 <math>f</math> 表示一个马尔科夫链的状态转移矩阵,[math]U(\mathcal{X})[/math] 表示状态变量 [math]X_t[/math] 取值空间 [math]\mathcal{X}[/math] 上的均匀分布。<math>\tilde{X}_t,\tilde{X}_{t+1}</math> 分别为把 <math>t</math> 时刻的[math]X_t[/math][[干预]]为[[均匀分布]]后,前后两个时刻的状态。<math>p_{ij}</math> 为第 <math>i</math> 个状态转移到第 <math>j</math> 个状态的转移概率。从这个式子不难看出,<math> EI </math> 仅仅是概率转移矩阵 [math]f[/math] 的函数。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。
 
其中 <math>f</math> 表示一个马尔科夫链的状态转移矩阵,[math]U(\mathcal{X})[/math] 表示状态变量 [math]X_t[/math] 取值空间 [math]\mathcal{X}[/math] 上的均匀分布。<math>\tilde{X}_t,\tilde{X}_{t+1}</math> 分别为把 <math>t</math> 时刻的[math]X_t[/math][[干预]]为[[均匀分布]]后,前后两个时刻的状态。<math>p_{ij}</math> 为第 <math>i</math> 个状态转移到第 <math>j</math> 个状态的转移概率。从这个式子不难看出,<math> EI </math> 仅仅是概率转移矩阵 [math]f[/math] 的函数。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。
第142行: 第159行:  
=====因果涌现度量=====
 
=====因果涌现度量=====
 
我们可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生:
 
我们可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生:
 +
    
<math>
 
<math>
 
CE=EI\left ( f_M \right )-EI\left (f_m \right )
 
CE=EI\left ( f_M \right )-EI\left (f_m \right )
 
</math>
 
</math>
 +
    
其中 <math>CE</math> 为因果涌现强度。如果宏观动力学的有效信息大于微观动力学的有效信息(也就是 <math>CE>0</math>),那么我们认为在该粗粒化基础上宏观动力学具有因果涌现特性。
 
其中 <math>CE</math> 为因果涌现强度。如果宏观动力学的有效信息大于微观动力学的有效信息(也就是 <math>CE>0</math>),那么我们认为在该粗粒化基础上宏观动力学具有因果涌现特性。
第155行: 第174行:     
对该矩阵的粗粒化为如下操作:首先,将前 7 个状态归并为一个宏观状态,不妨称为 A,并且将 [math]f_m[/math] 中前 7 行的前 7 列的概率数值加总再除以 7,从而得到宏观态 A 到 A 的状态转移概率,并对 [math]f_m[/math] 矩阵的其它数值保持不变。这样归并后的新的概率转移矩阵如右图所示,记为 [math]f_M[/math] 。这是一个确定的宏观马尔科夫转移矩阵,即系统的未来状态完全可以由当前状态决定。此时 <math>EI(f_M\ )>EI(f_m\ ) </math>,系统发生了因果涌现。
 
对该矩阵的粗粒化为如下操作:首先,将前 7 个状态归并为一个宏观状态,不妨称为 A,并且将 [math]f_m[/math] 中前 7 行的前 7 列的概率数值加总再除以 7,从而得到宏观态 A 到 A 的状态转移概率,并对 [math]f_m[/math] 矩阵的其它数值保持不变。这样归并后的新的概率转移矩阵如右图所示,记为 [math]f_M[/math] 。这是一个确定的宏观马尔科夫转移矩阵,即系统的未来状态完全可以由当前状态决定。此时 <math>EI(f_M\ )>EI(f_m\ ) </math>,系统发生了因果涌现。
 +
    
[[文件:状态空间中的因果涌现1.png|居左|500x500像素|状态空间上的因果涌现|替代=]]
 
[[文件:状态空间中的因果涌现1.png|居左|500x500像素|状态空间上的因果涌现|替代=]]
 +
    
然而,对于更一般的马尔科夫链和更一般的状态分组,这种简单的将概率平均化的操作并不都是可行的,这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件(如矩阵的行并不满足归一化条件,或元素数值超出 [0,1] 区间范围)。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链,请参考本词条后面的'''马尔科夫链的约简'''一节,或参看[[马尔科夫链的粗粒化]]这一词条。
 
然而,对于更一般的马尔科夫链和更一般的状态分组,这种简单的将概率平均化的操作并不都是可行的,这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件(如矩阵的行并不满足归一化条件,或元素数值超出 [0,1] 区间范围)。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链,请参考本词条后面的'''马尔科夫链的约简'''一节,或参看[[马尔科夫链的粗粒化]]这一词条。
第169行: 第190行:     
通过对比,我们发现宏观动力学的[[有效信息]]大于微观动力学的[[有效信息]](<math>EI(f_M\ )>EI(f_m\ ) </math>),该系统发生了因果涌现。
 
通过对比,我们发现宏观动力学的[[有效信息]]大于微观动力学的[[有效信息]](<math>EI(f_M\ )>EI(f_m\ ) </math>),该系统发生了因果涌现。
 +
    
[[文件:含有4个节点的布尔网络.png|居左|700x700像素|离散布尔网络上的因果涌现|替代=含有4个节点布尔网络的因果涌现]]
 
[[文件:含有4个节点的布尔网络.png|居左|700x700像素|离散布尔网络上的因果涌现|替代=含有4个节点布尔网络的因果涌现]]
 +
    
=====连续变量中的因果涌现=====
 
=====连续变量中的因果涌现=====
第178行: 第201行:  
====Rosas的因果涌现理论====
 
====Rosas的因果涌现理论====
 
Rosas 等<ref name=":5" />从[[信息分解]]理论的视角出发,提出一种基于[[整合信息分解]]定义因果涌现的方法,并将因果涌现进一步区分为:[[因果解耦]](Causal Decoupling)和[[向下因果]](Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为 <math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,宏观状态是 <math>V_t </math>,它由微观态变量 <math>X_t </math> 粗粒化而来,因而是 <math>X_t </math> 的随附特征(Supervenience),<math>X_{t+1} </math> 和 <math>V_{t+1} </math> 分别表示下一时刻的微观和宏观状态。
 
Rosas 等<ref name=":5" />从[[信息分解]]理论的视角出发,提出一种基于[[整合信息分解]]定义因果涌现的方法,并将因果涌现进一步区分为:[[因果解耦]](Causal Decoupling)和[[向下因果]](Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为 <math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,宏观状态是 <math>V_t </math>,它由微观态变量 <math>X_t </math> 粗粒化而来,因而是 <math>X_t </math> 的随附特征(Supervenience),<math>X_{t+1} </math> 和 <math>V_{t+1} </math> 分别表示下一时刻的微观和宏观状态。
 +
    
[[文件:向下因果与因果解耦2.png|居左|300x300像素|因果解耦与向下因果]]
 
[[文件:向下因果与因果解耦2.png|居左|300x300像素|因果解耦与向下因果]]
 +
    
=====部分信息分解=====
 
=====部分信息分解=====
第186行: 第211行:     
不失一般性,假设我们的微观态为 <math>X(X^1,X^2) </math>,即它是一个二维的变量,宏观态为 <math>V </math>,则二者之间的[[互信息]]可以被分解为四个部分:
 
不失一般性,假设我们的微观态为 <math>X(X^1,X^2) </math>,即它是一个二维的变量,宏观态为 <math>V </math>,则二者之间的[[互信息]]可以被分解为四个部分:
 +
    
<math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math>
 
<math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math>
 +
    
其中 <math>Red(X^1,X^2;V) </math> 表示[[冗余信息]],是指两个微观态 <math>X^1 </math> 和 <math>X^2 </math> 重复地给宏观态 <math>V </math> 提供的信息;<math>Un(X^1;V│X^2 ) </math> 和 <math>Un(X^2;V│X^1 ) </math> 表示[[特有信息]],是指每一个微观态变量单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math> 表示[[协同信息]],是指所有微观态 <math>X </math> 联合在一起给宏观态 <math>V </math> 提供的信息。
 
其中 <math>Red(X^1,X^2;V) </math> 表示[[冗余信息]],是指两个微观态 <math>X^1 </math> 和 <math>X^2 </math> 重复地给宏观态 <math>V </math> 提供的信息;<math>Un(X^1;V│X^2 ) </math> 和 <math>Un(X^2;V│X^1 ) </math> 表示[[特有信息]],是指每一个微观态变量单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math> 表示[[协同信息]],是指所有微观态 <math>X </math> 联合在一起给宏观态 <math>V </math> 提供的信息。
第203行: 第230行:     
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态 <math>V_t </math> 的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math> 衡成立。所以,如果 <math>Un(V_t;X_{t+1}| X_t\ )</math> 大于0,则系统出现因果涌现。然而 <math>V_t </math> 的选择往往需要预先定义粗粒化函数,因此无法回避 [[Erik Hoel 因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。
 
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态 <math>V_t </math> 的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math> 衡成立。所以,如果 <math>Un(V_t;X_{t+1}| X_t\ )</math> 大于0,则系统出现因果涌现。然而 <math>V_t </math> 的选择往往需要预先定义粗粒化函数,因此无法回避 [[Erik Hoel 因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。
 +
    
=====具体实例=====
 
=====具体实例=====
 +
[[文件:因果解耦以及向下因果例子1.png|500x500像素|居左|因果解耦以及向下因果例子]]
   −
[[文件:因果解耦以及向下因果例子1.png|500x500像素|居左|因果解耦以及向下因果例子]]
      
文<ref name=":5" />中作者列举了一个具体的例子(如上式),来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。该例子是一个特殊的马尔科夫过程,这里, <math>p_{X_{t+1}|X_t}(x_{t+1}|x_t)</math> 表示动力学关系,<math>X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n </math> 为微观态。该过程的定义是通过检查前后两个时刻的变量 [math]x_t[/math] 和 [math]x_{t+1}[/math] 的取值,也就是判断 [math]x_t[/math] 的所有维度加和模2是否与 [math]x_{t+1}[/math] 的第一个维度相同来确定下一时刻状态 [math]x_{t+1}[/math] 取不同数值概率的:如果不同,则概率取 0;否则再判断 [math]x_t,x_{t+1}[/math] 在所有维度上是否都有相同的加和模 2 值,如果两个条件都满足,则取值概率为 [math]\gamma/2^{n-2}[/math],否则取值概率为 [math](1-\gamma)/2^{n-2}[/math]。这里 [math]\gamma[/math] 为一个参数, [math]n[/math] 为 x 的总维度。
 
文<ref name=":5" />中作者列举了一个具体的例子(如上式),来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。该例子是一个特殊的马尔科夫过程,这里, <math>p_{X_{t+1}|X_t}(x_{t+1}|x_t)</math> 表示动力学关系,<math>X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n </math> 为微观态。该过程的定义是通过检查前后两个时刻的变量 [math]x_t[/math] 和 [math]x_{t+1}[/math] 的取值,也就是判断 [math]x_t[/math] 的所有维度加和模2是否与 [math]x_{t+1}[/math] 的第一个维度相同来确定下一时刻状态 [math]x_{t+1}[/math] 取不同数值概率的:如果不同,则概率取 0;否则再判断 [math]x_t,x_{t+1}[/math] 在所有维度上是否都有相同的加和模 2 值,如果两个条件都满足,则取值概率为 [math]\gamma/2^{n-2}[/math],否则取值概率为 [math](1-\gamma)/2^{n-2}[/math]。这里 [math]\gamma[/math] 为一个参数, [math]n[/math] 为 x 的总维度。
第215行: 第243行:     
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_{t+1}^1[/math] 是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
 
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_{t+1}^1[/math] 是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
 +
    
====基于奇异值分解的因果涌现理论====
 
====基于奇异值分解的因果涌现理论====
第222行: 第251行:  
=====马尔科夫链的奇异值分解=====
 
=====马尔科夫链的奇异值分解=====
 
给定一个系统的[[马尔科夫转移矩阵]] <math>P</math>,我们可以对它进行[[奇异值分解]],得到两个正交且归一化矩阵 <math>U</math> 和 <math>V</math>,和一个对角阵 <math>\Sigma</math>:<math>P= U\Sigma V^T</math>,其中 [math]\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_N)[/math],其中 [math]\sigma_1\geq\sigma_2\geq\cdots\sigma_N[/math] 为 <math>P</math> 的奇异值,并且按照从大到小的顺序排列,<math>N</math> 为 <math>P</math> 的状态数量。
 
给定一个系统的[[马尔科夫转移矩阵]] <math>P</math>,我们可以对它进行[[奇异值分解]],得到两个正交且归一化矩阵 <math>U</math> 和 <math>V</math>,和一个对角阵 <math>\Sigma</math>:<math>P= U\Sigma V^T</math>,其中 [math]\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_N)[/math],其中 [math]\sigma_1\geq\sigma_2\geq\cdots\sigma_N[/math] 为 <math>P</math> 的奇异值,并且按照从大到小的顺序排列,<math>N</math> 为 <math>P</math> 的状态数量。
 +
    
=====近似动力学可逆性与有效信息=====
 
=====近似动力学可逆性与有效信息=====
 
我们可以将奇异值的<math>\alpha</math> 次方之和(也称为矩阵的 [math]\alpha[/math] 阶[[Schatten范数]])定义为马尔科夫链的[[近似动力学可逆性]]度量,即:
 
我们可以将奇异值的<math>\alpha</math> 次方之和(也称为矩阵的 [math]\alpha[/math] 阶[[Schatten范数]])定义为马尔科夫链的[[近似动力学可逆性]]度量,即:
 +
    
<math>
 
<math>
 
\Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha}
 
\Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha}
 
</math>
 
</math>
 +
    
这里,[math]\alpha\in(0,2)[/math] 为一个指定的参数,它起到让 [math]\Gamma_{\alpha}[/math] 能够更多地反映[[确定性]]还是[[简并性]]这样一种权重或倾向性。通常情况下,我们取 [math]\alpha=1[/math],这可以让 [math]\Gamma_{\alpha}[/math] 能够在确定性与简并性之间达到一种平衡。
 
这里,[math]\alpha\in(0,2)[/math] 为一个指定的参数,它起到让 [math]\Gamma_{\alpha}[/math] 能够更多地反映[[确定性]]还是[[简并性]]这样一种权重或倾向性。通常情况下,我们取 [math]\alpha=1[/math],这可以让 [math]\Gamma_{\alpha}[/math] 能够在确定性与简并性之间达到一种平衡。
第234行: 第266行:     
此外,文献中作者证明了 <math>EI</math> 与 [math]\Gamma_{\alpha}[/math] 之间存在着一种近似的关系:
 
此外,文献中作者证明了 <math>EI</math> 与 [math]\Gamma_{\alpha}[/math] 之间存在着一种近似的关系:
 +
    
<math>
 
<math>
 
EI\sim \log\Gamma_{\alpha}
 
EI\sim \log\Gamma_{\alpha}
 
</math>
 
</math>
 +
    
而且,在一定程度上可以用 [math]\Gamma_{\alpha}[/math] 替代 EI 对马尔科夫链的因果效应程度进行度量。因此,所谓的因果涌现也可以被理解为一种'''动力学可逆性的涌现'''。
 
而且,在一定程度上可以用 [math]\Gamma_{\alpha}[/math] 替代 EI 对马尔科夫链的因果效应程度进行度量。因此,所谓的因果涌现也可以被理解为一种'''动力学可逆性的涌现'''。
第244行: 第278行:  
=====无需粗粒化的因果涌现量化=====
 
=====无需粗粒化的因果涌现量化=====
 
然而,该理论的最大价值在于无需粗粒化策略,就可以直接量化涌现。如果 <math>P</math> 的秩为 <math>r</math>,即从第 <math>r+1</math> 个奇异值开始,奇异值都为 0,则我们称动力学 <math>P</math> 存在着'''清晰的因果涌现'''(Clear Causal Emergence),并且因果涌现的数值为:
 
然而,该理论的最大价值在于无需粗粒化策略,就可以直接量化涌现。如果 <math>P</math> 的秩为 <math>r</math>,即从第 <math>r+1</math> 个奇异值开始,奇异值都为 0,则我们称动力学 <math>P</math> 存在着'''清晰的因果涌现'''(Clear Causal Emergence),并且因果涌现的数值为:
 +
    
<math>
 
<math>
 
\Delta \Gamma_{\alpha} =  \Gamma_{\alpha}(1/r-1/N)
 
\Delta \Gamma_{\alpha} =  \Gamma_{\alpha}(1/r-1/N)
 
</math>
 
</math>
 +
    
如果矩阵 <math>P</math> 满秩,但是对于任意给定的小数 <math>\epsilon</math>,存在 <math>r_{\epsilon}</math>,使得从 <math>r_{\epsilon}+1</math> 开始,所有的奇异值都小于 <math>\epsilon</math>,则称系统存在着程度的'''模糊的因果涌现'''(Vague Causal Emergence),且因果涌现的数值为:
 
如果矩阵 <math>P</math> 满秩,但是对于任意给定的小数 <math>\epsilon</math>,存在 <math>r_{\epsilon}</math>,使得从 <math>r_{\epsilon}+1</math> 开始,所有的奇异值都小于 <math>\epsilon</math>,则称系统存在着程度的'''模糊的因果涌现'''(Vague Causal Emergence),且因果涌现的数值为:
 +
    
<math>\Delta \Gamma_{\alpha}(\epsilon) =  \frac{\sum_{i=1}^{r} \sigma_{i}^{\alpha}}{r} -  \frac{\sum_{i=1}^{N} \sigma_{i}^{\alpha}}{N} </math>
 
<math>\Delta \Gamma_{\alpha}(\epsilon) =  \frac{\sum_{i=1}^{r} \sigma_{i}^{\alpha}}{r} -  \frac{\sum_{i=1}^{N} \sigma_{i}^{\alpha}}{N} </math>
 +
    
总结来看,该定量化因果涌现的方法的好处在于,它可以不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。该方法的缺点是,若要计算 [math]\Gamma_{\alpha}[/math],需要事先对 <math>P</math> 进行[[SVD分解]],因而计算复杂度为 [math]O(N^3)[/math],比 <math>EI</math> 的计算复杂度高。而且,[math]\Gamma_{\alpha}[/math] 不能显式地分解为确定度和简并度两个分量。
 
总结来看,该定量化因果涌现的方法的好处在于,它可以不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。该方法的缺点是,若要计算 [math]\Gamma_{\alpha}[/math],需要事先对 <math>P</math> 进行[[SVD分解]],因而计算复杂度为 [math]O(N^3)[/math],比 <math>EI</math> 的计算复杂度高。而且,[math]\Gamma_{\alpha}[/math] 不能显式地分解为确定度和简并度两个分量。
第257行: 第295行:     
=====具体实例=====
 
=====具体实例=====
 +
[[文件:Gamma例子.png|居左|500x500像素|<math>EI</math>与<math>\Gamma</math>对比]]
   −
[[文件:Gamma例子.png|居左|500x500像素|<math>EI</math>与<math>\Gamma</math>对比]]
      
作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的 <math>EI</math> 和[[近似动力学可逆性]](图中的 <math>\Gamma</math>,即 <math>\Gamma_{\alpha=1}</math>)。对比图a,b,我们发现对于不同的状态转移矩阵,<math>EI</math> 降低的时候,<math>\Gamma</math> 也同步降低。进一步,图c和d是对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图d是一个[[确定性系统]],因此,归一化后的 <math>EI</math>,<math>eff\equiv EI/\log N</math> 和归一化后的 [math]\Gamma[/math]:<math>\gamma\equiv \Gamma/N</math> 都达到了最大值 1。
 
作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的 <math>EI</math> 和[[近似动力学可逆性]](图中的 <math>\Gamma</math>,即 <math>\Gamma_{\alpha=1}</math>)。对比图a,b,我们发现对于不同的状态转移矩阵,<math>EI</math> 降低的时候,<math>\Gamma</math> 也同步降低。进一步,图c和d是对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图d是一个[[确定性系统]],因此,归一化后的 <math>EI</math>,<math>eff\equiv EI/\log N</math> 和归一化后的 [math]\Gamma[/math]:<math>\gamma\equiv \Gamma/N</math> 都达到了最大值 1。
第269行: 第307行:  
=====动力学解耦的定量化=====
 
=====动力学解耦的定量化=====
 
[[转移熵]]是测量两个随机过程之间有向(时间不对称)信息转移量的一种非参数统计量。过程 <math>X</math> 到另一个过程 <math>Y</math> 的转移熵可定义为:在已知 <math>Y</math> 过去值的情况下,了解 <math>X</math> 的过去值所能减少对 <math>Y</math> 未来值不确定性的程度,公式如下所示:
 
[[转移熵]]是测量两个随机过程之间有向(时间不对称)信息转移量的一种非参数统计量。过程 <math>X</math> 到另一个过程 <math>Y</math> 的转移熵可定义为:在已知 <math>Y</math> 过去值的情况下,了解 <math>X</math> 的过去值所能减少对 <math>Y</math> 未来值不确定性的程度,公式如下所示:
 +
    
<math>T_t(X \to Y) = I(Y_t : X^-_t | Y^-_t) = H(Y_t | Y^-_t) - H(Y_t | Y^-_t, X^-_t)</math>
 
<math>T_t(X \to Y) = I(Y_t : X^-_t | Y^-_t) = H(Y_t | Y^-_t) - H(Y_t | Y^-_t, X^-_t)</math>
 +
    
其中,<math>Y_t</math> 表示 <math>t</math> 时刻的宏观变量,<math>X^-_t</math> 和 <math>Y^-_t</math> 分别表示 <math>t</math> 时刻之前的微观和宏观变量。[math]I[/math] 为互信息,[math]H[/math] 为香农熵。当且仅当时间 <math>t</math> 从 <math>X</math> 到 <math>Y</math> 的转移熵 <math>T_t(X \to Y)=0</math> 时,<math>Y</math> 相对于 <math>X</math> 动力学解耦
 
其中,<math>Y_t</math> 表示 <math>t</math> 时刻的宏观变量,<math>X^-_t</math> 和 <math>Y^-_t</math> 分别表示 <math>t</math> 时刻之前的微观和宏观变量。[math]I[/math] 为互信息,[math]H[/math] 为香农熵。当且仅当时间 <math>t</math> 从 <math>X</math> 到 <math>Y</math> 的转移熵 <math>T_t(X \to Y)=0</math> 时,<math>Y</math> 相对于 <math>X</math> 动力学解耦
第283行: 第323行:  
=====实例=====
 
=====实例=====
 
文中举了一个线性动力系统的例子,其动力学是一个向量自回归的模型,通过使用遗传算法对不同的初始条件进行迭代进化,能使得系统的动力学解耦程度也逐渐增加,同时发现不同的粗粒化尺度会影响优化到[[动力学解耦]]的程度,实验发现只有在某些尺度下能达到动力学解耦,而在其他尺度则不行,因此尺度的选择也很重要。
 
文中举了一个线性动力系统的例子,其动力学是一个向量自回归的模型,通过使用遗传算法对不同的初始条件进行迭代进化,能使得系统的动力学解耦程度也逐渐增加,同时发现不同的粗粒化尺度会影响优化到[[动力学解耦]]的程度,实验发现只有在某些尺度下能达到动力学解耦,而在其他尺度则不行,因此尺度的选择也很重要。
 +
    
===几种因果涌现理论比较===
 
===几种因果涌现理论比较===
 
我们可以从是否考虑因果、是否需要指定粗粒化函数,适用的动力学系统以及定量化指标这几个不同的维度,对比上述四种不同的定量化因果涌现理论,得到下表:
 
我们可以从是否考虑因果、是否需要指定粗粒化函数,适用的动力学系统以及定量化指标这几个不同的维度,对比上述四种不同的定量化因果涌现理论,得到下表:
 +
    
{| class="wikitable"
 
{| class="wikitable"
第307行: 第349行:     
====基于  Rosas 因果涌现理论的近似方法====
 
====基于  Rosas 因果涌现理论的近似方法====
[[Rosas的因果涌现理论|Rosas 的因果涌现理论]]包含了基于[[协同信息]]的量化方法和基于[[特有信息]]的量化方法,其中第二种方法可以绕开多变量的组合爆炸问题,但是依赖粗粒化方法和宏观态变量<math>V</math> 的选择。为了解决这个问题,作者给出了两种解决方案,一种是通过研究者指定一个宏观态 <math>V</math>,另一种是基于机器学习的方法,通过最大化 <math>\mathrm{\Psi} </math>,让系统自动学习到宏观态变量 <math>V</math>。下面我们分别介绍这两种方法:
+
[[Rosas的因果涌现理论|Rosas 的因果涌现理论]]包含了基于[[协同信息]]的量化方法和基于[[特有信息]]的量化方法,其中第二种方法可以绕开多变量的组合爆炸问题,但是依赖粗粒化方法和宏观态变量 <math>V</math> 的选择。为了解决这个问题,作者给出了两种解决方案,一种是通过研究者指定一个宏观态 <math>V</math>,另一种是基于机器学习的方法,通过最大化 <math>\mathrm{\Psi} </math>,让系统自动学习到宏观态变量 <math>V</math>。下面我们分别介绍这两种方法:
       
=====基于互信息近似的方法=====
 
=====基于互信息近似的方法=====
[[Rosas的因果涌现理论|Rosas 的因果涌现理论]]虽然已经给出了因果涌现的严格定义,但在计算中涉及到很多变量的组合爆炸问题,因此难以将该方法应用于实际系统。为了解决这个问题,Rosas 等绕开了特有信息和协同信息的精确计算 <ref name=":5" />,而提了一种只需要计算[[互信息]]的近似公式,并推导出一个判定因果涌现发生的充分条件。
+
[[Rosas的因果涌现理论|Rosas 的因果涌现理论]]虽然已经给出了因果涌现的严格定义,但在计算中涉及到很多变量的组合爆炸问题,因此难以将该方法应用于实际系统。为了解决这个问题,Rosas 等绕开了特有信息和协同信息的精确计算<ref name=":5" />,而提了一种只需要计算[[互信息]]的近似公式,并推导出一个判定因果涌现发生的充分条件。
       
作者们基于[[互信息]]提出了三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和 <math>\mathrm{\Gamma} </math> 可以分别用于识别系统中的因果涌现、[[因果解耦]]和[[向下因果]],三种指标的具体计算公式分别如下所示:
 
作者们基于[[互信息]]提出了三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和 <math>\mathrm{\Gamma} </math> 可以分别用于识别系统中的因果涌现、[[因果解耦]]和[[向下因果]],三种指标的具体计算公式分别如下所示:
 +
    
* 判断因果涌现的指标:
 
* 判断因果涌现的指标:
第320行: 第363行:  
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 
|{{EquationRef|1}}}}
 
|{{EquationRef|1}}}}
 +
    
其中 <math>X_t^j </math> 表示第 j 维 t 时刻的微观变量,<math>V_t ; V_{t+1} </math> 分别代表两个连续时间的宏观状态变量。Rosas 等人定义,当 <math>\mathrm{\Psi}>0 </math> 时,系统发生涌现;但是当 <math>\mathrm{\Psi}<0 </math>,我们不能确定 <math>V </math> 是否发生涌现,这是因为该条件仅仅是因果涌现发生的充分条件。
 
其中 <math>X_t^j </math> 表示第 j 维 t 时刻的微观变量,<math>V_t ; V_{t+1} </math> 分别代表两个连续时间的宏观状态变量。Rosas 等人定义,当 <math>\mathrm{\Psi}>0 </math> 时,系统发生涌现;但是当 <math>\mathrm{\Psi}<0 </math>,我们不能确定 <math>V </math> 是否发生涌现,这是因为该条件仅仅是因果涌现发生的充分条件。
 +
    
* 判断[[向下因果]]的指标:
 
* 判断[[向下因果]]的指标:
 +
    
<math>\Delta_{t, t+1}(V):=\max _j\left(I\left(V_t ; X_{t+1}^j\right)-\sum_i I\left(X_t^i ; X_{t+1}^j\right)\right) </math>
 
<math>\Delta_{t, t+1}(V):=\max _j\left(I\left(V_t ; X_{t+1}^j\right)-\sum_i I\left(X_t^i ; X_{t+1}^j\right)\right) </math>
 +
    
当 <math>\mathrm{\Delta}>0 </math> 时,宏观状态 <math>V </math> 对微观变量 <math>X</math> 存在[[向下因果]]。
 
当 <math>\mathrm{\Delta}>0 </math> 时,宏观状态 <math>V </math> 对微观变量 <math>X</math> 存在[[向下因果]]。
第331行: 第378行:     
* 判断[[因果解耦]]的指标:
 
* 判断[[因果解耦]]的指标:
 +
    
<math>\Gamma_{t, t+1}(V):=\max _j I\left(V_t ; X_{t+1}^j\right) </math>
 
<math>\Gamma_{t, t+1}(V):=\max _j I\left(V_t ; X_{t+1}^j\right) </math>
 +
    
当 <math>\mathrm{\Delta}>0 </math> 且 <math>\mathrm{\Gamma}=0 </math> 时,系统发生因果涌现且存在[[因果解耦]]。
 
当 <math>\mathrm{\Delta}>0 </math> 且 <math>\mathrm{\Gamma}=0 </math> 时,系统发生因果涌现且存在[[因果解耦]]。
第338行: 第387行:     
之所以我们可以使用 <math>\mathrm{\Psi} </math> 来识别因果涌现的发生,是因为 <math>\mathrm{\Psi} </math> 又是特有信息的下界,我们有如下关系:
 
之所以我们可以使用 <math>\mathrm{\Psi} </math> 来识别因果涌现的发生,是因为 <math>\mathrm{\Psi} </math> 又是特有信息的下界,我们有如下关系:
 +
    
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
 
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
 +
    
由于 <math>Red(V_t, V_{t+1};X_t) </math> 为非负数,所以我们可以据此提出一个充分非必要条件:当 <math>\Psi_{t, t+1}(V) > 0 </math>。
 
由于 <math>Red(V_t, V_{t+1};X_t) </math> 为非负数,所以我们可以据此提出一个充分非必要条件:当 <math>\Psi_{t, t+1}(V) > 0 </math>。
第352行: 第403行:  
=====基于机器学习的方法=====
 
=====基于机器学习的方法=====
 
Kaplanis 等人<ref name=":2" />基于[[表示机器学习]](Representation learning)的理论方法,用算法通过最大化 <math>\mathrm{\Psi} </math>(即公式{{EquationNote|1}})而自发学习到宏观态变量 <math>V</math> 变量。具体的,作者们使用神经网络 <math>f_{\theta}</math> 来学习将微观输入 <math>X_t</math> 粗粒化成宏观输出 <math>V_t</math> 的表示函数,同时使用神经网络 <math>g_{\phi}</math> 和 <math>h_{\xi}</math> 来分别学习 <math>I(V_t;V_{t+1})</math> 和 <math>\sum_i(I(V_{t+1};X_{t}^i))</math> 等互信息的计算,最后该方法通过最大化两者之间的差(即 <math>\mathrm{\Psi} </math>)来优化神经网络。该神经网络系统的架构图如下图a所示。
 
Kaplanis 等人<ref name=":2" />基于[[表示机器学习]](Representation learning)的理论方法,用算法通过最大化 <math>\mathrm{\Psi} </math>(即公式{{EquationNote|1}})而自发学习到宏观态变量 <math>V</math> 变量。具体的,作者们使用神经网络 <math>f_{\theta}</math> 来学习将微观输入 <math>X_t</math> 粗粒化成宏观输出 <math>V_t</math> 的表示函数,同时使用神经网络 <math>g_{\phi}</math> 和 <math>h_{\xi}</math> 来分别学习 <math>I(V_t;V_{t+1})</math> 和 <math>\sum_i(I(V_{t+1};X_{t}^i))</math> 等互信息的计算,最后该方法通过最大化两者之间的差(即 <math>\mathrm{\Psi} </math>)来优化神经网络。该神经网络系统的架构图如下图a所示。
 +
    
[[文件:学习因果涌现表征的架构.png|居左|600x600像素|学习因果涌现表征的架构]]
 
[[文件:学习因果涌现表征的架构.png|居左|600x600像素|学习因果涌现表征的架构]]
 +
    
图b展示了一个 toy 模型实例,微观输入 <math>X_t(X_t^1,...,X_t^6) \in \left\{0,1\right\}^6</math> 存在 6 个维度,每个维度存在 0 和 1 两种状态,<math>X_{t+1}</math> 是 <math>X_{t}</math> 的下一时刻输出,宏观态为 <math>V_{t}=\oplus_{i=1}^{5}X_t^i</math>,其中 <math>\oplus_{i=1}^{5}X_t^i</math> 表示微观输入 <math>X_t</math> 前 5 个维度加和模 2 的结果,前后两个时刻的宏观态存在 <math>\gamma</math> 概率相等(<math>p(\oplus_{j=1..5}X_{t+1}^j=\oplus_{j=1..5}X_t^j)= \gamma</math>),微观输入的前后两个时刻的第6个维度以 <math>\gamma_{extra}</math> 概率的可能性相等(<math>p(X_{t+1}^6=X_t^6)= \gamma_{extra}</math>)。
 
图b展示了一个 toy 模型实例,微观输入 <math>X_t(X_t^1,...,X_t^6) \in \left\{0,1\right\}^6</math> 存在 6 个维度,每个维度存在 0 和 1 两种状态,<math>X_{t+1}</math> 是 <math>X_{t}</math> 的下一时刻输出,宏观态为 <math>V_{t}=\oplus_{i=1}^{5}X_t^i</math>,其中 <math>\oplus_{i=1}^{5}X_t^i</math> 表示微观输入 <math>X_t</math> 前 5 个维度加和模 2 的结果,前后两个时刻的宏观态存在 <math>\gamma</math> 概率相等(<math>p(\oplus_{j=1..5}X_{t+1}^j=\oplus_{j=1..5}X_t^j)= \gamma</math>),微观输入的前后两个时刻的第6个维度以 <math>\gamma_{extra}</math> 概率的可能性相等(<math>p(X_{t+1}^6=X_t^6)= \gamma_{extra}</math>)。
150

个编辑