第98行: |
第98行: |
| ==因果涌现的量化== | | ==因果涌现的量化== |
| 接下来,我们重点介绍几种利用因果度量来量化涌现现象的研究。 | | 接下来,我们重点介绍几种利用因果度量来量化涌现现象的研究。 |
| + | |
| | | |
| ===几种因果涌现理论=== | | ===几种因果涌现理论=== |
− | 对于如何定义因果涌现是一个关键问题,有几个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于[[有效信息]]的方法、Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于[[信息分解]]的方法、张江等人<ref name=":2" />基于[[奇异值分解]]提出了一套新的因果涌现理论以及一些其他的理论。
| + | 对于如何定义因果涌现是一个关键问题,有几个代表性工作,分别是 Hoel 等<ref name=":0" /><ref name=":1" />提出的基于[[有效信息]]的方法、Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于[[信息分解]]的方法、张江等人<ref name=":2" />基于[[奇异值分解]]提出了一套新的因果涌现理论以及一些其他的理论。 |
| + | |
| | | |
| ====Erik Hoel的因果涌现理论==== | | ====Erik Hoel的因果涌现理论==== |
− | | + | Hoel 等于 2013 年<ref name=":0" /><ref name=":1" />提出因果涌现理论,下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,[math]f_m[/math] 表示微观动力学,[math]f_M[/math] 表示宏观动力学,二者通过一个粗粒化函数 [math]\phi[/math] 相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math] 和 [math]f_M[/math] 都是马尔科夫链,对 [math]f_m[/math] 进行[[马尔科夫链的粗粒化]],就可以得到 [math]f_M[/math]。<math> EI </math> 是[[有效信息]]的度量。由于微观态可能具有更大的随机性,这导致微观动力学的[[因果性]]比较弱,所以通过对每一个时刻的微观态进行合理的粗粒化,就有可能得到因果性更强的宏观态。所谓的因果涌现,就是指当我们对微观态进行粗粒化的时候,宏观动力学的[[有效信息]]会增加这一现象,并且宏观态与微观态的[[有效信息]]之差被定义为因果涌现的强度。 |
− | Hoel等于2013年<ref name=":0" /><ref name=":1" />提出因果涌现理论,下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,[math]f_m[/math]表示微观动力学,[math]f_M[/math]表示宏观动力学,二者通过一个粗粒化函数[math]\phi[/math]相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math]和[math]f_M[/math]都是马尔科夫链,对[math]f_m[/math]进行[[马尔科夫链的粗粒化]],就可以得到[math]f_M[/math]。<math> EI </math>是[[有效信息]]的度量。由于微观态可能具有更大的随机性,这导致微观动力学的[[因果性]]比较弱,所以通过对每一个时刻的微观态进行合理的粗粒化,就有可能得到因果性更强的宏观态。所谓的因果涌现,就是指当我们对微观态进行粗粒化的时候,宏观动力学的[[有效信息]]会增加这一现象,并且宏观态与微观态的[[有效信息]]之差被定义为因果涌现的强度。
| |
| | | |
| [[文件:因果涌现理论.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居左|400x400像素]] | | [[文件:因果涌现理论.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居左|400x400像素]] |
第111行: |
第112行: |
| [[有效信息]](<math> EI </math>)最早由[[Tononi]]等人在[[整合信息论]]的研究中提出<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>。在因果涌现研究中,[[Erik Hoel]]等人将这种[[因果效应度量]]指标用于量化一个[[因果机制]]的因果性强弱。 | | [[有效信息]](<math> EI </math>)最早由[[Tononi]]等人在[[整合信息论]]的研究中提出<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>。在因果涌现研究中,[[Erik Hoel]]等人将这种[[因果效应度量]]指标用于量化一个[[因果机制]]的因果性强弱。 |
| | | |
− | 具体来说,<math> EI </math>的计算为:使用干预操作对自变量做[[干预]],并考察在这一干预下,因和果变量之间的[[互信息]],这种互信息就是[[有效信息]],即因果机制的因果效应度量。 | + | 具体来说,<math> EI </math> 的计算为:使用干预操作对自变量做[[干预]],并考察在这一干预下,因和果变量之间的[[互信息]],这种互信息就是[[有效信息]],即因果机制的因果效应度量。 |
| | | |
− | 在[[马尔科夫链]]中,任意时刻的状态变量[math]X_t[/math]都可以看作是原因,而下一时刻的状态变量[math]X_{t+1}[/math]就可以看作是结果,这样[[马尔科夫链]]的[[状态转移矩阵]]就是它的[[因果机制]]。因此,针对[[马尔科夫链]]的<math>EI</math>的计算公式如下所示: | + | 在[[马尔科夫链]]中,任意时刻的状态变量 [math]X_t[/math] 都可以看作是原因,而下一时刻的状态变量 [math]X_{t+1}[/math] 就可以看作是结果,这样[[马尔科夫链]]的[[状态转移矩阵]]就是它的[[因果机制]]。因此,针对[[马尔科夫链]]的 <math>EI</math> 的计算公式如下所示: |
| | | |
| <math> | | <math> |
第122行: |
第123行: |
| </math> | | </math> |
| | | |
− | 其中<math>f</math>表示一个马尔科夫链的状态转移矩阵,[math]U(\mathcal{X})[/math]表示状态变量[math]X_t[/math]取值空间[math]\mathcal{X}[/math]上的均匀分布。<math>\tilde{X}_t,\tilde{X}_{t+1}</math>分别为把<math>t</math>时刻的[math]X_t[/math][[干预]]为[[均匀分布]]后,前后两个时刻的状态。<math>p_{ij}</math>为第<math>i</math>个状态转移到第<math>j</math>个状态的转移概率。从这个式子不难看出,<math> EI </math>仅仅是概率转移矩阵[math]f[/math]的函数。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。 | + | 其中 <math>f</math> 表示一个马尔科夫链的状态转移矩阵,[math]U(\mathcal{X})[/math] 表示状态变量 [math]X_t[/math] 取值空间 [math]\mathcal{X}[/math] 上的均匀分布。<math>\tilde{X}_t,\tilde{X}_{t+1}</math> 分别为把 <math>t</math> 时刻的[math]X_t[/math][[干预]]为[[均匀分布]]后,前后两个时刻的状态。<math>p_{ij}</math> 为第 <math>i</math> 个状态转移到第 <math>j</math> 个状态的转移概率。从这个式子不难看出,<math> EI </math> 仅仅是概率转移矩阵 [math]f[/math] 的函数。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。 |
| | | |
| 有效信息可以拆解为'''确定性'''和'''简并性'''两部分,还可以通过引入归一化从而消除状态空间规模大小的影响。关于有效信息的详细信息请参看词条:[[有效信息]]。 | | 有效信息可以拆解为'''确定性'''和'''简并性'''两部分,还可以通过引入归一化从而消除状态空间规模大小的影响。关于有效信息的详细信息请参看词条:[[有效信息]]。 |
第133行: |
第134行: |
| </math> | | </math> |
| | | |
− | 其中<math>CE</math>为因果涌现强度。如果宏观动力学的有效信息大于微观动力学的有效信息(也就是<math>CE>0</math>),那么我们认为在该粗粒化基础上宏观动力学具有因果涌现特性。 | + | 其中 <math>CE</math> 为因果涌现强度。如果宏观动力学的有效信息大于微观动力学的有效信息(也就是 <math>CE>0</math>),那么我们认为在该粗粒化基础上宏观动力学具有因果涌现特性。 |
| | | |
| =====马尔科夫链实例===== | | =====马尔科夫链实例===== |
| | | |
− | 在文献<ref name=":0"/>中,Hoel给出一个含有8个状态的马尔科夫链的状态转移矩阵([math]f_m[/math])的例子,如下面左图所示。其中前7个状态之间等概率转移,最后一个状态是独立的,只能转变为自身的状态。 | + | 在文献<ref name=":0"/>中,Hoel 给出一个含有 8 个状态的马尔科夫链的状态转移矩阵([math]f_m[/math])的例子,如下面左图所示。其中前7个状态之间等概率转移,最后一个状态是独立的,只能转变为自身的状态。 |
| | | |
− | 对该矩阵的粗粒化为如下操作:首先,将前7个状态归并为一个宏观状态,不妨称为A,并且将[math]f_m[/math]中前7行的前7列的概率数值加总再除以7,从而得到宏观态A到A的状态转移概率,并对[math]f_m[/math]矩阵的其它数值保持不变。这样归并后的新的概率转移矩阵如右图所示,记为[math]f_M[/math]。这是一个确定的宏观马尔科夫转移矩阵,即系统的未来状态完全可以由当前状态决定。此时<math>EI(f_M\ )>EI(f_m\ ) </math>,系统发生了因果涌现。
| + | 对该矩阵的粗粒化为如下操作:首先,将前 7 个状态归并为一个宏观状态,不妨称为 A,并且将 [math]f_m[/math] 中前 7 行的前 7 列的概率数值加总再除以 7,从而得到宏观态 A 到 A 的状态转移概率,并对 [math]f_m[/math] 矩阵的其它数值保持不变。这样归并后的新的概率转移矩阵如右图所示,记为 [math]f_M[/math] 。这是一个确定的宏观马尔科夫转移矩阵,即系统的未来状态完全可以由当前状态决定。此时 <math>EI(f_M\ )>EI(f_m\ ) </math>,系统发生了因果涌现。 |
| | | |
| [[文件:状态空间中的因果涌现1.png|居左|500x500像素|状态空间上的因果涌现|替代=]] | | [[文件:状态空间中的因果涌现1.png|居左|500x500像素|状态空间上的因果涌现|替代=]] |
| | | |
− | 然而,对于更一般的马尔科夫链和更一般的状态分组,这种简单的将概率平均化的操作并不都是可行的,这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件(如矩阵的行并不满足归一化条件,或元素数值超出[0,1]区间范围)。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链,请参考本词条后面的'''马尔科夫链的约简'''一节,或参看[[马尔科夫链的粗粒化]]这一词条。 | + | 然而,对于更一般的马尔科夫链和更一般的状态分组,这种简单的将概率平均化的操作并不都是可行的,这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件(如矩阵的行并不满足归一化条件,或元素数值超出 [0,1] 区间范围)。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链,请参考本词条后面的'''马尔科夫链的约简'''一节,或参看[[马尔科夫链的粗粒化]]这一词条。 |
| | | |
| =====布尔网络实例===== | | =====布尔网络实例===== |
| | | |
− | 另一个文献<ref name=":0"/>中的例子是一个[[布尔网络]]中发生因果涌现的例子。如图所示,这是一个含有4个节点的布尔网络,每个节点有0和1两种状态,每个节点与另外两个节点相连,遵循相同的微观动力学机制(a图)。因此,该系统一共含有十六个微观状态,它的动力学可以用一个<math>16\times16 </math>的状态转移矩阵(c图)表示。 | + | 另一个文献<ref name=":0"/>中的例子是一个[[布尔网络]]中发生因果涌现的例子。如图所示,这是一个含有 4 个节点的布尔网络,每个节点有 0 和 1 两种状态,每个节点与另外两个节点相连,遵循相同的微观动力学机制(a图)。因此,该系统一共含有十六个微观状态,它的动力学可以用一个 <math>16\times16 </math> 的状态转移矩阵(c图)表示。 |
| | | |
− | 对该系统的粗粒化操作分为两步,第一步是对布尔网络中的节点进行聚类,如下图b所示,将A和B进行合并得到宏观节点[math]\alpha[/math],C和D进行合并得到宏观节点[math]\beta[/math];第二步,将每一个分组中的微观节点状态映射为归并后的宏观节点状态,这一映射函数如下图d所示,其中所有包含0的微观节点状态都转变为宏观节点的off状态,而微观的11状态转变为宏观的on状态。这样,我们可以得到一个新的宏观的布尔网络,并根据微观节点的动力学机制得到宏观布尔网络的动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(如e图所示)。 | + | 对该系统的粗粒化操作分为两步,第一步是对布尔网络中的节点进行聚类,如下图b所示,将A和B进行合并得到宏观节点 [math]\alpha[/math],C 和 D 进行合并得到宏观节点 [math]\beta[/math];第二步,将每一个分组中的微观节点状态映射为归并后的宏观节点状态,这一映射函数如下图d所示,其中所有包含 0 的微观节点状态都转变为宏观节点的off状态,而微观的 11 状态转变为宏观的 on 状态。这样,我们可以得到一个新的宏观的布尔网络,并根据微观节点的动力学机制得到宏观布尔网络的动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(如e图所示)。 |
| | | |
| 通过对比,我们发现宏观动力学的[[有效信息]]大于微观动力学的[[有效信息]](<math>EI(f_M\ )>EI(f_m\ ) </math>),该系统发生了因果涌现。 | | 通过对比,我们发现宏观动力学的[[有效信息]]大于微观动力学的[[有效信息]](<math>EI(f_M\ )>EI(f_m\ ) </math>),该系统发生了因果涌现。 |
第157行: |
第158行: |
| =====连续变量中的因果涌现===== | | =====连续变量中的因果涌现===== |
| | | |
− | 进一步,在<ref name="Chvykov_causal_geometry">{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>一文中,Hoel等人提出了[[因果几何]]理论框架,试图将因果涌现理论推广到具有连续状态的函数映射与动力系统之中,该文章对[[随机函数映射]]定义了<math>EI</math>,同时还引入了干预噪音和[[因果几何]]的概念,并将这一概念与[[信息几何]]进行了对照和类比。[[刘凯威]]等人<ref name="An_exact_theory_of_causal_emergence">{{cite journal|author1=Liu K|author2=Yuan B|author3=Zhang J|title=An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems|journal=Entropy|year=2024|volume=26|issue=8|page=618|url=https://arxiv.org/abs/2405.09207}}</ref>又进一步给出了[[随机迭代动力系统]]的精确解析的因果涌现理论。 | + | 进一步,在<ref name="Chvykov_causal_geometry">{{cite journal|author1=Chvykov P|author2=Hoel E.|title=Causal Geometry|journal=Entropy|year=2021|volume=23|issue=1|page=24|url=https://doi.org/10.3390/e2}}</ref>一文中,Hoel等人提出了[[因果几何]]理论框架,试图将因果涌现理论推广到具有连续状态的函数映射与动力系统之中,该文章对[[随机函数映射]]定义了 <math>EI</math>,同时还引入了干预噪音和[[因果几何]]的概念,并将这一概念与[[信息几何]]进行了对照和类比。[[刘凯威]]等人<ref name="An_exact_theory_of_causal_emergence">{{cite journal|author1=Liu K|author2=Yuan B|author3=Zhang J|title=An Exact Theory of Causal Emergence for Linear Stochastic Iteration Systems|journal=Entropy|year=2024|volume=26|issue=8|page=618|url=https://arxiv.org/abs/2405.09207}}</ref>又进一步给出了[[随机迭代动力系统]]的精确解析的因果涌现理论。 |
| | | |
| ====Rosas的因果涌现理论==== | | ====Rosas的因果涌现理论==== |
− | Rosas等<ref name=":5" />从[[信息分解]]理论的视角出发,提出一种基于[[整合信息分解]]定义因果涌现的方法,并将因果涌现进一步区分为:[[因果解耦]](Causal Decoupling)和[[向下因果]](Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。 | + | Rosas等<ref name=":5" />从[[信息分解]]理论的视角出发,提出一种基于[[整合信息分解]]定义因果涌现的方法,并将因果涌现进一步区分为:[[因果解耦]](Causal Decoupling)和[[向下因果]](Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为 <math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,宏观状态是 <math>V_t </math>,它由微观态变量 <math>X_t </math> 粗粒化而来,因而是 <math>X_t </math> 的随附特征(Supervenience),<math>X_{t+1} </math> 和 <math>V_{t+1} </math> 分别表示下一时刻的微观和宏观状态。 |
| | | |
| [[文件:向下因果与因果解耦2.png|居左|300x300像素|因果解耦与向下因果]] | | [[文件:向下因果与因果解耦2.png|居左|300x300像素|因果解耦与向下因果]] |
第168行: |
第169行: |
| 该方法建立在Williams和Beer等<ref name=":16" />提出的[[多元信息非负分解]]理论的基础之上,该文使用[[部分信息分解]](PID)将微观态和宏观态的互信息进行分解。 | | 该方法建立在Williams和Beer等<ref name=":16" />提出的[[多元信息非负分解]]理论的基础之上,该文使用[[部分信息分解]](PID)将微观态和宏观态的互信息进行分解。 |
| | | |
− | 不失一般性,假设我们的微观态为<math>X(X^1,X^2) </math>,即它是一个二维的变量,宏观态为<math>V </math>,则二者之间的[[互信息]]可以被分解为四个部分: | + | 不失一般性,假设我们的微观态为 <math>X(X^1,X^2) </math>,即它是一个二维的变量,宏观态为 <math>V </math>,则二者之间的[[互信息]]可以被分解为四个部分: |
| | | |
| <math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math> | | <math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math> |
| | | |
− | 其中<math>Red(X^1,X^2;V) </math>表示[[冗余信息]],是指两个微观态<math>X^1 </math>和<math>X^2 </math>重复地给宏观态<math>V </math>提供的信息;<math>Un(X^1;V│X^2 ) </math>和<math>Un(X^2;V│X^1 ) </math>表示[[特有信息]],是指每一个微观态变量单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math>表示[[协同信息]],是指所有微观态<math>X </math>联合在一起给宏观态<math>V </math>提供的信息。 | + | 其中 <math>Red(X^1,X^2;V) </math> 表示[[冗余信息]],是指两个微观态 <math>X^1 </math> 和 <math>X^2 </math> 重复地给宏观态 <math>V </math> 提供的信息;<math>Un(X^1;V│X^2 ) </math> 和 <math>Un(X^2;V│X^1 ) </math> 表示[[特有信息]],是指每一个微观态变量单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math> 表示[[协同信息]],是指所有微观态 <math>X </math> 联合在一起给宏观态 <math>V </math> 提供的信息。 |
| | | |
| =====因果涌现定义===== | | =====因果涌现定义===== |
| | | |
− | 然而,PID框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\Phi ID </math><ref name=":18" />来处理多个源变量和多个目标变量之间的互信息,还可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: | + | 然而,PID框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法 <math>\Phi ID </math><ref name=":18" />来处理多个源变量和多个目标变量之间的互信息,还可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: |
| | | |
− | 1)当[[特有信息]]<math>Un(V_t;X_{t+1}| X_t^1,\ldots,X_t^n\ )>0 </math>,表示当前时刻的宏观态<math>V_t </math>能超过当前时刻的微观态<math>X_t </math>给下一时刻的整体系统<math>X_{t+1} </math>提供更多信息,这时候系统存在着因果涌现; | + | 1)当[[特有信息]] <math>Un(V_t;X_{t+1}| X_t^1,\ldots,X_t^n\ )>0 </math>,表示当前时刻的宏观态 <math>V_t </math> 能超过当前时刻的微观态 <math>X_t </math> 给下一时刻的整体系统 <math>X_{t+1} </math> 提供更多信息,这时候系统存在着因果涌现; |
| | | |
− | 2)第二种方法绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_{t+1} </math>之间的[[协同信息]]定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )>0 </math>,系统发生了因果涌现。 | + | 2)第二种方法绕开了选择特定的宏观态 <math>V_t </math>,仅仅基于系统当前时刻的微观态 <math>X_t </math> 和下一时刻的微观态 <math>X_{t+1} </math> 之间的[[协同信息]]定义因果涌现,当协同信息 <math>Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )>0 </math>,系统发生了因果涌现。 |
| | | |
− | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math>衡成立。所以,如果<math>Un(V_t;X_{t+1}| X_t\ )</math>大于0,则系统出现因果涌现。然而<math>V_t </math>的选择往往需要预先定义粗粒化函数,因此无法回避[[Erik Hoel因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。 | + | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态 <math>V_t </math> 的选择,其中方法一是方法二的下界。这是因为,<math>Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ )</math> 衡成立。所以,如果 <math>Un(V_t;X_{t+1}| X_t\ )</math> 大于0,则系统出现因果涌现。然而 <math>V_t </math> 的选择往往需要预先定义粗粒化函数,因此无法回避[[Erik Hoel因果涌现理论]]的局限。另外一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,有待提出更加合理的量化方法。 |
| | | |
| =====具体实例===== | | =====具体实例===== |
第188行: |
第189行: |
| [[文件:因果解耦以及向下因果例子1.png|500x500像素|居左|因果解耦以及向下因果例子]] | | [[文件:因果解耦以及向下因果例子1.png|500x500像素|居左|因果解耦以及向下因果例子]] |
| | | |
− | 文<ref name=":5" />中作者列举了一个具体的例子(如上式),来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。该例子是一个特殊的马尔科夫过程,这里,<math>p_{X_{t+1}|X_t}(x_{t+1}|x_t)</math>表示动力学关系,<math>X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n </math>为微观态。该过程的定义是通过检查前后两个时刻的变量[math]x_t[/math]和[math]x_{t+1}[/math]的取值,也就是判断[math]x_t[/math]的所有维度加和模2是否与[math]x_{t+1}[/math]的第一个维度相同来确定下一时刻状态[math]x_{t+1}[/math]取不同数值概率的:如果不同,则概率取0;否则再判断[math]x_t,x_{t+1}[/math]在所有维度上是否都有相同的加和模2值,如果两个条件都满足,则取值概率为[math]\gamma/2^{n-2}[/math],否则取值概率为[math](1-\gamma)/2^{n-2}[/math]。这里[math]\gamma[/math]为一个参数,[math]n[/math]为x的总维度。 | + | 文<ref name=":5" />中作者列举了一个具体的例子(如上式),来说明什么时候发生[[因果解耦]]、[[向下因果]]以及[[因果涌现]]。该例子是一个特殊的马尔科夫过程,这里, <math>p_{X_{t+1}|X_t}(x_{t+1}|x_t)</math> 表示动力学关系,<math>X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n </math> 为微观态。该过程的定义是通过检查前后两个时刻的变量 [math]x_t[/math] 和 [math]x_{t+1}[/math] 的取值,也就是判断 [math]x_t[/math] 的所有维度加和模2是否与 [math]x_{t+1}[/math] 的第一个维度相同来确定下一时刻状态 [math]x_{t+1}[/math] 取不同数值概率的:如果不同,则概率取 0;否则再判断 [math]x_t,x_{t+1}[/math] 在所有维度上是否都有相同的加和模 2 值,如果两个条件都满足,则取值概率为 [math]\gamma/2^{n-2}[/math],否则取值概率为 [math](1-\gamma)/2^{n-2}[/math]。这里 [math]\gamma[/math] 为一个参数, [math]n[/math] 为x的总维度。 |
| | | |
− | 实际上,如果<math>\sum_{j=1}^n x^j_t</math>是偶数或者0时<math>\oplus^n_{j=1} x^j_t:=1</math>,反之<math>\oplus^n_{j=1} x^j_t:=0</math>,因此<math>\oplus^n_{j=1} x^j_t</math>的结果是X整体序列的奇偶性,而第一个维度则可以看作是一个奇偶校验位。<math>\gamma</math>实际上表示X序列某两个位产生了突变,并且该突变却能够保证整体序列的奇偶性不变,以及序列的奇偶校验位也符合序列整体的实际奇偶性的概率。 | + | 实际上,如果 <math>\sum_{j=1}^n x^j_t</math> 是偶数或者 0 时 <math>\oplus^n_{j=1} x^j_t:=1</math>,反之 <math>\oplus^n_{j=1} x^j_t:=0</math>,因此 <math>\oplus^n_{j=1} x^j_t</math> 的结果是 X 整体序列的奇偶性,而第一个维度则可以看作是一个奇偶校验位。<math>\gamma</math> 实际上表示 X 序列某两个位产生了突变,并且该突变却能够保证整体序列的奇偶性不变,以及序列的奇偶校验位也符合序列整体的实际奇偶性的概率。 |
| | | |
− | 因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_{t+1}^1[/math]是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。 | + | 因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_{t+1}^1[/math] 是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。 |
| | | |
| ====基于奇异值分解的因果涌现理论==== | | ====基于奇异值分解的因果涌现理论==== |
| | | |
− | [[Erik Hoel的因果涌现理论]]存在着需要事先指定粗粒化策略的问题,Rosas的信息分解理论并没有完全解决该问题,因此,[[张江]]等人进一步提出了<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于[[奇异值分解的因果涌现理论]]。 | + | [[Erik Hoel的因果涌现理论]]存在着需要事先指定粗粒化策略的问题,Rosas的信息分解理论并没有完全解决该问题,因此,[[张江]]等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>进一步提出了基于[[奇异值分解的因果涌现理论]]。 |
| | | |
| =====马尔科夫链的奇异值分解===== | | =====马尔科夫链的奇异值分解===== |
| | | |
− | 给定一个系统的[[马尔科夫转移矩阵]]<math>P</math>,我们可以对它进行[[奇异值分解]],得到两个正交且归一化矩阵<math>U</math>和<math>V</math>,和一个对角阵<math>\Sigma</math>:<math>P= U\Sigma V^T</math>,其中[math]\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_N)[/math],其中[math]\sigma_1\geq\sigma_2\geq\cdots\sigma_N[/math]为<math>P</math>的奇异值,并且按照从大到小的顺序排列,<math>N</math>为<math>P</math>的状态数量。 | + | 给定一个系统的[[马尔科夫转移矩阵]] <math>P</math>,我们可以对它进行[[奇异值分解]],得到两个正交且归一化矩阵 <math>U</math> 和 <math>V</math>,和一个对角阵 <math>\Sigma</math>:<math>P= U\Sigma V^T</math>,其中 [math]\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_N)[/math],其中 [math]\sigma_1\geq\sigma_2\geq\cdots\sigma_N[/math] 为 <math>P</math> 的奇异值,并且按照从大到小的顺序排列,<math>N</math> 为 <math>P</math> 的状态数量。 |
| | | |
| =====近似动力学可逆性与有效信息===== | | =====近似动力学可逆性与有效信息===== |
| | | |
− | 我们可以将奇异值的<math>\alpha</math>次方之和(也称为矩阵的[math]\alpha[/math]阶[[Schatten范数]])定义为马尔科夫链的[[近似动力学可逆性]]度量,即: | + | 我们可以将奇异值的<math>\alpha</math> 次方之和(也称为矩阵的 [math]\alpha[/math] 阶[[Schatten范数]])定义为马尔科夫链的[[近似动力学可逆性]]度量,即: |
| + | |
| <math> | | <math> |
| \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha} | | \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha} |
| </math> | | </math> |
| | | |
− | 这里,[math]\alpha\in(0,2)[/math]为一个指定的参数,它起到让[math]\Gamma_{\alpha}[/math]能够更多地反映[[确定性]]还是[[简并性]]这样一种权重或倾向性。通常情况下,我们取[math]\alpha=1[/math],这可以让[math]\Gamma_{\alpha}[/math]能够在确定性与简并性之间达到一种平衡。 | + | 这里,[math]\alpha\in(0,2)[/math] 为一个指定的参数,它起到让 [math]\Gamma_{\alpha}[/math] 能够更多地反映[[确定性]]还是[[简并性]]这样一种权重或倾向性。通常情况下,我们取 [math]\alpha=1[/math],这可以让 [math]\Gamma_{\alpha}[/math] 能够在确定性与简并性之间达到一种平衡。 |
| | | |
− | 此外,文献中作者证明了<math>EI</math>与[math]\Gamma_{\alpha}[/math]之间存在着一种近似的关系: | + | 此外,文献中作者证明了 <math>EI</math> 与 [math]\Gamma_{\alpha}[/math] 之间存在着一种近似的关系: |
| | | |
| <math> | | <math> |
第217行: |
第219行: |
| </math> | | </math> |
| | | |
− | 而且,在一定程度上可以用[math]\Gamma_{\alpha}[/math]替代EI对马尔科夫链的因果效应程度进行度量。因此,所谓的因果涌现也可以被理解为一种'''动力学可逆性的涌现'''。 | + | 而且,在一定程度上可以用 [math]\Gamma_{\alpha}[/math] 替代 EI 对马尔科夫链的因果效应程度进行度量。因此,所谓的因果涌现也可以被理解为一种'''动力学可逆性的涌现'''。 |
| | | |
| =====无需粗粒化的因果涌现量化===== | | =====无需粗粒化的因果涌现量化===== |
| | | |
− | 然而,该理论的最大价值在于无需粗粒化策略,就可以直接量化涌现。如果<math>P</math>的秩为<math>r</math>,即从第<math>r+1</math>个奇异值开始,奇异值都为0,则我们称动力学<math>P</math>存在着'''清晰的因果涌现'''(Clear Causal Emergence),并且因果涌现的数值为: | + | 然而,该理论的最大价值在于无需粗粒化策略,就可以直接量化涌现。如果 <math>P</math> 的秩为 <math>r</math>,即从第 <math>r+1</math> 个奇异值开始,奇异值都为 0,则我们称动力学 <math>P</math> 存在着'''清晰的因果涌现'''(Clear Causal Emergence),并且因果涌现的数值为: |
| | | |
| <math> | | <math> |
第227行: |
第229行: |
| </math> | | </math> |
| | | |
− | 如果矩阵<math>P</math>满秩,但是对于任意给定的小数<math>\epsilon</math>,存在<math>r_{\epsilon}</math>,使得从<math>r_{\epsilon}+1</math>开始,所有的奇异值都小于<math>\epsilon</math>,则称系统存在着程度的'''模糊的因果涌现'''(Vague Causal Emergence),且因果涌现的数值为: | + | 如果矩阵 <math>P</math> 满秩,但是对于任意给定的小数 <math>\epsilon</math>,存在 <math>r_{\epsilon}</math>,使得从 <math>r_{\epsilon}+1</math> 开始,所有的奇异值都小于 <math>\epsilon</math>,则称系统存在着程度的'''模糊的因果涌现'''(Vague Causal Emergence),且因果涌现的数值为: |
| | | |
| <math>\Delta \Gamma_{\alpha}(\epsilon) = \frac{\sum_{i=1}^{r} \sigma_{i}^{\alpha}}{r} - \frac{\sum_{i=1}^{N} \sigma_{i}^{\alpha}}{N} </math> | | <math>\Delta \Gamma_{\alpha}(\epsilon) = \frac{\sum_{i=1}^{r} \sigma_{i}^{\alpha}}{r} - \frac{\sum_{i=1}^{N} \sigma_{i}^{\alpha}}{N} </math> |
| | | |
− | 总结来看,该定量化因果涌现的方法的好处在于,它可以不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。该方法的缺点是,若要计算[math]\Gamma_{\alpha}[/math],需要事先对<math>P</math>进行[[SVD分解]],因而计算复杂度为[math]O(N^3)[/math],比<math>EI</math>的计算复杂度高。而且,[math]\Gamma_{\alpha}[/math]不能显式地分解为确定度和简并度两个分量。 | + | 总结来看,该定量化因果涌现的方法的好处在于,它可以不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。该方法的缺点是,若要计算 [math]\Gamma_{\alpha}[/math],需要事先对 <math>P</math> 进行[[SVD分解]],因而计算复杂度为 [math]O(N^3)[/math],比 <math>EI</math> 的计算复杂度高。而且,[math]\Gamma_{\alpha}[/math] 不能显式地分解为确定度和简并度两个分量。 |
| | | |
| =====具体实例===== | | =====具体实例===== |
第237行: |
第239行: |
| [[文件:Gamma例子.png|居左|500x500像素|<math>EI</math>与<math>\Gamma</math>对比]] | | [[文件:Gamma例子.png|居左|500x500像素|<math>EI</math>与<math>\Gamma</math>对比]] |
| | | |
− | 作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的<math>EI</math>和[[近似动力学可逆性]](图中的<math>\Gamma</math>,即<math>\Gamma_{\alpha=1}</math>)。对比图a,b,我们发现对于不同的状态转移矩阵,<math>EI</math>降低的时候,<math>\Gamma</math>也同步降低。进一步,图c和d是对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图d是一个[[确定性系统]],因此,归一化后的<math>EI</math>,<math>eff\equiv EI/\log N</math>和归一化后的[math]\Gamma[/math]:<math>\gamma\equiv \Gamma/N</math>都达到了最大值1。 | + | 作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的 <math>EI</math> 和[[近似动力学可逆性]](图中的 <math>\Gamma</math>,即 <math>\Gamma_{\alpha=1}</math>)。对比图a,b,我们发现对于不同的状态转移矩阵,<math>EI</math> 降低的时候,<math>\Gamma</math> 也同步降低。进一步,图c和d是对比粗粒化前后的效果,其中图d是对图c状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图d是一个[[确定性系统]],因此,归一化后的 <math>EI</math>,<math>eff\equiv EI/\log N</math> 和归一化后的 [math]\Gamma[/math]:<math>\gamma\equiv \Gamma/N</math> 都达到了最大值 1。 |
| | | |
| ====动力学解耦(Dynamic independence)==== | | ====动力学解耦(Dynamic independence)==== |
第244行: |
第246行: |
| =====动力学解耦的定量化===== | | =====动力学解耦的定量化===== |
| | | |
− | [[转移熵]]是测量两个随机过程之间有向(时间不对称)信息转移量的一种非参数统计量。过程<math>X</math>到另一个过程<math>Y</math>的转移熵可定义为:在已知<math>Y</math>过去值的情况下,了解<math>X</math>的过去值所能减少对<math>Y</math>未来值不确定性的程度,公式如下所示: | + | [[转移熵]]是测量两个随机过程之间有向(时间不对称)信息转移量的一种非参数统计量。过程 <math>X</math> 到另一个过程 <math>Y</math> 的转移熵可定义为:在已知 <math>Y</math> 过去值的情况下,了解 <math>X</math> 的过去值所能减少对 <math>Y</math> 未来值不确定性的程度,公式如下所示: |
| | | |
| <math>T_t(X \to Y) = I(Y_t : X^-_t | Y^-_t) = H(Y_t | Y^-_t) - H(Y_t | Y^-_t, X^-_t)</math> | | <math>T_t(X \to Y) = I(Y_t : X^-_t | Y^-_t) = H(Y_t | Y^-_t) - H(Y_t | Y^-_t, X^-_t)</math> |
| | | |
− | 其中,<math>Y_t</math>表示<math>t</math>时刻的宏观变量,<math>X^-_t</math>和<math>Y^-_t</math>分别表示<math>t</math>时刻之前的微观和宏观变量。[math]I[/math]为互信息,[math]H[/math]为Shannon熵。当且仅当时间<math>t</math>从<math>X</math>到<math>Y</math>的转移熵 <math>T_t(X \to Y)=0</math>时,<math>Y</math>相对于<math>X</math>动力学解耦 | + | 其中,<math>Y_t</math> 表示 <math>t</math> 时刻的宏观变量,<math>X^-_t</math> 和 <math>Y^-_t</math> 分别表示 <math>t</math> 时刻之前的微观和宏观变量。[math]I[/math] 为互信息,[math]H[/math] 为香农熵。当且仅当时间 <math>t</math> 从 <math>X</math> 到 <math>Y</math> 的转移熵 <math>T_t(X \to Y)=0</math> 时,<math>Y</math> 相对于 <math>X</math> 动力学解耦 |
| | | |
| 动力学解耦的概念可以被广泛适用于多种复杂动态系统,包括神经系统、经济过程和进化过程。通过粗粒化方法,可以将高维微观系统简化为低维宏观系统,从而揭示出复杂系统中的涌现结构。 | | 动力学解耦的概念可以被广泛适用于多种复杂动态系统,包括神经系统、经济过程和进化过程。通过粗粒化方法,可以将高维微观系统简化为低维宏观系统,从而揭示出复杂系统中的涌现结构。 |