基于可逆性的因果涌现理论
基于可逆性的因果涌现理论是一种量化因果涌现的新框架,该方法基于奇异值分解,提出了近似动力学可逆性([math]\displaystyle{ \Gamma_{\alpha} }[/math])的概念,用于量化马尔科夫动力学接近可逆动力学的程度;与此同时,还提出了一种不经过粗粒化就能直接判断因果涌现是否发生的方法。经过理论推导和数值实验证明,在对因果涌现的判断和量化上,基于近似可逆性指标的因果涌现与Erik Hoel等人提出的基于有效信息(EI)指标的因果涌现判断具有类似的效果,且[math]\displaystyle{ \Gamma_{\alpha} }[/math]和EI在多个方面存在联系。此外,该理论还提出了基于奇异值分解(SVD)的新粗粒化策略,并通过实验证明了该方法的有效性。
简介
因果涌现(causal emergence)是指动力系统中的一类特殊的涌现现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于一类马尔科夫动力系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现[1][2]。2013年,Hoel等人[1]最早提出了因果涌现理论,该理论利用因果效应度量来量化复杂系统中的涌现现象,该方法使用有效信息(Effective Information,简称EI)来量化系统动力学的因果性强弱。此外,2020年,Rosas等[3]从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,基于协同信息或者冗余信息来定量的刻画涌现。2023年,Barnett等人[4]基于转移熵,通过判断宏观动力学与微观动力学进行解耦来判断涌现的发生,将涌现刻画为,宏观的变量与微观的变量相互独立,没有因果关系,这也可以看做是一种因果涌现现象。
然而,现有的因果涌现理论存在着一定的局限性。例如,基于有效信息的因果涌现理论是一个依赖于粗粒化方案的理论,不同的粗粒化策略会得到完全不同的因果涌现判断。尽管这一局限可以通过最大化有效信息[5]选取粗粒化策略得到一定程度的解决,但是该优化问题还是很难求解。Rosas等人提出了用协同信息量化涌现的方法[3],但是这种计算涉及到多个变量的所有组合,因而计算量会呈现指数增长。Rosas进一步提出了近似计算方案,但是该方与Erik Hoel的因果涌现理论一样,需要事先指定粗粒化方案及其涌现变量[3]。同样地,Seth等人的量化涌现理论也需要在粗粒化方案给定的情况下展开讨论[4]。对于粗粒化方案的过分依赖会使得这些量化涌现理论在不同程度上依赖于观察者的粗粒化策略,因而带有一定的主观色彩。那么,是否存在着一种不依赖于粗粒化方案的因果涌现理论呢?
2024年,张江等人[6]基于奇异值分解,提出了一套新的因果涌现理论。该理论的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵,通过对它进行奇异值分解,将奇异值的[math]\displaystyle{ \alpha }[/math]次方的和定义为马尔科夫动力学的可逆性度量([math]\displaystyle{ \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha} }[/math]),这里[math]\sigma_i[/math]为奇异值。该指标与有效信息具有高度的相关性,也可以用于刻画动力学的因果效应强度。根据奇异值的谱,该方法可以在不显式定义粗粒化方案的条件下,直接定义所谓清晰涌现(clear emergence)和模糊涌现(vague emergence)的概念。
基于可逆性的因果涌现理论与已有的其他因果涌现理论最大的区别就是不需要指定粗粒化策略,仅从马尔科夫转移矩阵的奇异值谱就能判断因果涌现的发生,有效规避了观察者效应的问题和最大化有效信息的难以优化求解的问题。
基本概念
下面详细介绍该理论的基本概念,分别是动力学可逆性、近似动力学可逆性、清晰因果涌现和模糊因果涌现。
动力学可逆性
离散动力学
对于给定的马尔可夫链[math]\displaystyle{ \chi }[/math]和对应的转移概率矩阵(TPM) P ,如果P同时满足:
- P是可逆矩阵,即存在矩阵[math]\displaystyle{ P^{-1} }[/math],使得[math]\displaystyle{ PP^{-1}=I }[/math],[math]I[/math]为单位矩阵;
- [math]\displaystyle{ P^{-1} }[/math]也是另一个马尔可夫链[math]\displaystyle{ \chi^{-1} }[/math]的有效TPM,
则[math]\displaystyle{ \chi }[/math]和P可以称为严格动力学可逆的。
关于动力学可逆性,我们有如下定理:
定理1:对于一个给定的马尔科夫链[math]\displaystyle{ \chi }[/math]和对应的TPM P,当且仅当P是置换矩阵(Permutation Matrix)的时候,P是严格动力学可逆的。
所谓的置换矩阵是指每一个行向量都是独热向量(one-hot vector,即只有一个元素是1,其余元素均为零的向量),每两个行向量都不相同。
纯粹的置换矩阵在所有可能的TPM中非常稀少,所以大多数的TPM并不是严格动力学可逆的。因此,需要一个指标来刻画任意一个TPM接近动力学可逆的程度。考虑P的秩为r,当且仅当r<N(N为矩阵的维数)的时候,P是不可逆的;且P越退化对应着越小的r。然而,非退化(满秩)的矩阵P并不总是动力学可逆的,因为:
- 尽管[math]\displaystyle{ P^{-1} }[/math]存在,[math]\displaystyle{ P^{-1} }[/math]并不一定是满足归一化条件的合法TPM(即矩阵中每个元素都大于等于0,小于等于1,且每一行满足加和为1的条件);
- 如前所述,若P满足动力学可逆性,则P必为置换矩阵。
所有置换矩阵的行向量都是独热向量。这一特性可以被矩阵P的弗罗贝尼乌斯范数(Frobenius norm)刻画。事实上,当且仅当P的行向量是独热向量的时候,矩阵P的弗罗贝尼乌斯范数取最大值。因此,我们可以由矩阵P的秩r和矩阵的弗罗贝尼乌斯范数找到P的近似动力学可逆性与矩阵奇异值之间的联系。
首先,矩阵的秩可以被写作:
[math]\displaystyle{ \begin{aligned} r=\sum_{i=1}^{N}\sigma_{i}^{0} \end{aligned} }[/math]
其中[math]\displaystyle{ \sigma_{i} }[/math]是矩阵P的第i个奇异值,[math]N[/math]是马尔科夫链的状态数。
紧接着,矩阵的弗罗贝尼乌斯范数可以被写作:
[math]\displaystyle{ \begin{aligned} {||P||}_{F}^{2}=\sum_{i=1}^{N}\sigma_{i}^{2} \end{aligned} }[/math]
这也是所有奇异值的平方和。可以看出矩阵的秩和弗罗贝尼乌斯范数都与奇异值相联系。
连续动力学
TPM矩阵上基于SVD的因果涌现虽然能得到不依赖粗粒化策略的因果涌现,但是也存在一个弊端,就是只能量化离散条件概率空间的因果效应强度和因果涌现。由于离散概率空间和连续概率空间具有本质的不同,对于连续条件概率空间的基于SVD的因果涌现,我们需要单独进行分析,代表性的就是高斯噪声迭代系统的基于SVD的因果涌现[7]。
高斯噪声的随机迭代系统可以写成:
[math]\displaystyle{ X_{𝑡+1} = a_0 + 𝐴⋅𝑋𝑡 +\xi_𝑡 }[/math]
其中[math]\displaystyle{ 𝑋_𝑡 }[/math]是t时刻的状态向量, 维数为[math]\displaystyle{ n }[/math],[math]\displaystyle{ \xi\sim\mathcal{N}(0,\Sigma) }[/math],[math]\displaystyle{ \Sigma\in\mathcal{R}^{n\times n} }[/math]是协方差矩阵。这是一种最简单的连续状态空间的马尔科夫动力学,因此,我们要将SVD方法扩展到这类系统上。逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]共同影响了近似可逆性的大小,可以理解为,必须两个协方差都很小,非满秩或病态的维度影响较小的时候,系统动力学才有更强的可逆性。
我们的思路是,首先利用泛函分析的思想,找到概率转移矩阵的对应物;其次,利用傅里叶变换求出奇异值的表达式,最终写出近似动力学可逆性[math]\displaystyle{ \Gamma_\alpha }[/math]的表达式。
TPM矩阵的近似动力学可逆性与因果涌现
由于绝大部分马尔科夫链的状态转移矩阵(TPM)都不是置换矩阵,所以我们需要一个指标来刻画一个TPM靠近可逆的置换矩阵程度的指标,这就是近似动力学可逆性。 假设马尔科夫链的TPM为P,奇异值为[math]\displaystyle{ (\sigma_{1}\ge\sigma_{2}\ge...\ge\sigma_{N}\ge0) }[/math],那么矩阵P的[math]\displaystyle{ \alpha }[/math]阶近似动力学可逆性定义为:
[math]\displaystyle{ \begin{aligned} \Gamma_{\alpha}=\sum_{i=1}^{N}\sigma_{i}^{\alpha}\end{aligned} }[/math]
其中[math]\displaystyle{ \alpha\in(0,2) }[/math]是参数。
实际上,当[math]\displaystyle{ \alpha\ge1 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]是P的沙滕范数(Schatten norm);当[math]\displaystyle{ 0\lt \alpha\lt 1 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]是P的准范数(quasinorm)[8][9][10][11]。使用这个定义来刻画近似动力学可逆性是合理的,因为完全动力学可逆性可以通过最大化[math]\displaystyle{ \Gamma_{\alpha} }[/math]来得到。
我们有如下定理:
定理2:对于任意[math]\displaystyle{ \alpha\in(0,2) }[/math],[math]\displaystyle{ \Gamma_{\alpha} }[/math]的最大值是N,当且仅当P是置换矩阵的时候能取到该最大值。更进一步来说,可以证明,[math]\displaystyle{ \Gamma_{\alpha} }[/math]的下界可以由[math]\displaystyle{ {||P||}_{F}^{\alpha} }[/math]确定[12]。
确定性和简并性
通过调整参数[math]\displaystyle{ \alpha\in(0,2) }[/math],可以使更好地反映P的确定性或者简并性。当[math]\displaystyle{ \alpha\to0,\Gamma_{\alpha} }[/math]收敛到P的秩,这类似于EI定义中的非简并性项,因为随着P越来越退化,r越来越小。然而,定义不允许[math]\displaystyle{ \alpha }[/math]精确为零,因为r不是P的连续函数,而且最大化秩不等于置换矩阵。同样,当[math]\displaystyle{ \alpha\to2 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]收敛到[math]\displaystyle{ {||P||}_{F}^{2} }[/math],但是定义不允许[math]\displaystyle{ \alpha }[/math]取2,因为[math]\displaystyle{ \Gamma_{\alpha=2} }[/math]的最大化并不意味着P是可逆的。[math]\displaystyle{ {||P||}_{F} }[/math]与EI定义中的确定性项具有可比性,因为当P具有越来越多的独热向量,P中的最大转移概率也会变得更大,意味着动力学变得更加可逆。在实践中总是取[math]\displaystyle{ \alpha=1 }[/math]来平衡[math]\displaystyle{ \Gamma }[/math]测量确定性和简并性的倾向,[math]\displaystyle{ \Gamma_{\alpha=1} }[/math]被称为核范数[11][13]。为简便,下文中将[math]\displaystyle{ \Gamma_{\alpha=1} }[/math]记作[math]\displaystyle{ \Gamma }[/math]。
归一化
[math]\displaystyle{ \Gamma_{\alpha} }[/math]受矩阵的大小影响,所以我们需要对其进行归一化,得到[math]\displaystyle{ \gamma_{\alpha} }[/math]来刻画与大小无关的近似动力学可逆性,这样可以更方便地在不同大小的马尔科夫链之间进行比较:
[math]\displaystyle{ \begin{aligned} \gamma_{\alpha}=\frac{\Gamma_{\alpha}}{N}\end{aligned} }[/math]
容易证明,[math]\displaystyle{ \gamma_{\alpha} }[/math]总是小于1。
具体例子
在下图中,作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如下图所示。我们可以对比该马氏链的[math]\displaystyle{ EI }[/math]和近似动力学可逆性(图中的[math]\displaystyle{ \Gamma }[/math],即[math]\displaystyle{ \Gamma_{\alpha=1} }[/math])。对比图(a),(b),我们发现对于不同的状态转移矩阵,[math]\displaystyle{ EI }[/math]降低的时候,[math]\displaystyle{ \Gamma }[/math]也同步降低。进一步,图(c)和(d)是对比粗粒化前后的效果,其中图(d)是对图(c)状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图(d)是一个确定性系统,因此,归一化后的[math]\displaystyle{ EI }[/math],[math]\displaystyle{ eff\equiv EI/\log N }[/math]和归一化后的[math]\Gamma[/math]:[math]\displaystyle{ \gamma\equiv \Gamma/N }[/math]都达到了最大值1。
清晰因果涌现
对于具有TPM P的给定马尔可夫链[math]\displaystyle{ \chi }[/math],如果[math]\displaystyle{ r≡rank(P)\lt N }[/math],则该系统中会出现明显的因果涌现。且因果涌现的程度为:
[math]\displaystyle{ \begin{aligned} \Delta\Gamma_{\alpha}=\Gamma_{\alpha}\cdot(\frac{1}{r}-\frac{1}{N}) \end{aligned} }[/math]
模糊因果涌现
对于具有TPM P的给定马尔可夫链[math]\displaystyle{ \chi }[/math],假设其奇异值为[math]\displaystyle{ (\sigma_{1}\ge\sigma_{2}\ge...\ge\sigma_{N}\ge0) }[/math]。对于给定实值[math]\displaystyle{ \epsilon\in[0,\sigma_{1}] }[/math],如果存在整数[math]\displaystyle{ i\in[1, N) }[/math],使得[math]\displaystyle{ \sigma_{i}\gt \epsilon }[/math],则系统中出现了模糊因果涌现,其模糊程度为[math]\displaystyle{ \epsilon }[/math]。而因果涌现的程度为:
[math]\displaystyle{ \begin{aligned} \Delta\Gamma_{\alpha}(\epsilon)=\frac{\sum_{i=1}^{r_{\epsilon}}\sigma_{i}^{\alpha}}{r_{\epsilon}}-\frac{\sum_{i=1}^{N}\sigma_{i}^{\alpha}}{N}, \end{aligned} }[/math]
其中[math]\displaystyle{ r_{\epsilon}=max\{ i| \sigma_{i} \gt \epsilon\} }[/math]
这些定义与任何粗粒化方法无关,它代表了马尔可夫动力学的内在客观属性。因此,清晰和模糊因果涌现的程度都可以客观地量化。当[math]\displaystyle{ \epsilon=0 }[/math]时,清晰因果涌现是模糊因果涌现的特例,特别是当奇异值可以分析求解时,它具有理论价值。此外,对因果涌现发生的判断与[math]\displaystyle{ \alpha }[/math]无关,因为它只与秩有关。因此,清晰因果涌现的概念仅由P决定,是无参数的。在实际应用中,必须给出阈值[math]\displaystyle{ \epsilon }[/math],因为奇异值可能无限趋近于0,但P是满秩的。可以根据奇异值频谱中的明显截止点来选择[math]\displaystyle{ \epsilon }[/math]。若[math]\displaystyle{ \epsilon }[/math]非常小(比如[math]\displaystyle{ \epsilon\lt {10}^{-10} }[/math]),我们也可以说因果涌现大致发生。对于任意[math]\displaystyle{ \epsilon\ge{0},\Delta\Gamma_{\alpha}(\epsilon)\in[0,N-1] }[/math],只有当[math]\displaystyle{ \Delta\Gamma_{\alpha}(\epsilon)\gt 0 }[/math]时,才会出现因果涌现。
高斯噪声迭代系统的近似动力学可逆性与因果涌现
TPM矩阵本质上是离散条件概率构[math]\displaystyle{ p(x_{t+1}|x_t) }[/math]成的矩阵,矩阵的第i行第j列标代表[math]\displaystyle{ x_t=i }[/math]的条件下[math]\displaystyle{ x_{t+1}=j }[/math]的概率,因此从条件概率的角度类比到连续系统,高斯迭代系统的概率转移矩阵为:
[math]\displaystyle{ p(x_{t+1}|x_t)=\mathcal{N}(Ax_{t}+a_0,\Sigma)\equiv \frac{1}{(2\pi)^\frac{n}{2}\det(\Sigma)^\frac{1}{2}}\exp\left\{-\frac{1}{2}(x_{t+1}-Ax_t-a_0)^T\Sigma^{-1}(x_{t+1}-Ax_t-a_0)\right\}, }[/math]
在离散情况下,由于[math]\displaystyle{ 𝑃 }[/math]的奇异值的平方为矩阵[math]\displaystyle{ 𝑃⋅𝑃^𝑇 }[/math]的特征值,故计算连续情况下的[math]\displaystyle{ 𝑃⋅𝑃^𝑇 }[/math]对应:
[math]\displaystyle{ K(\textbf{x},\textbf{y})=\int_{-\infty}^\infty p(\textbf{z}|\textbf{x})p(\textbf{z}|\textbf{y})d\textbf{z}=(2\pi)^{-\frac{n}{2}}\det(2\Sigma)^{-\frac{1}{2}}\exp\left\{-\frac{1}{4}(\textbf{x}-\textbf{y})^T(A^T\Sigma^{-1}A)(\textbf{x}-\textbf{y})\right\}\equiv\mathcal{K}(\textbf{x}-\textbf{y}). }[/math]
因此,[math]\displaystyle{ 𝑝(𝑦|𝑥) }[/math]的奇异值平方就是算子[math]\displaystyle{ \textbf{Κ} }[/math]的特征值。假设[math]\displaystyle{ \textbf{Κ} }[/math]的特征值为[math]\displaystyle{ \zeta^2 }[/math],特征函数为:[math]\displaystyle{ \psi(𝑧) }[/math], 则根据特征值和特征函数的定义有:
[math]\displaystyle{ (\textbf{K}\psi)(\textbf{x})=\int_{-\infty}^\infty K(\textbf{x},\textbf{y})\psi(\textbf{y})d\textbf{y}=\zeta^2 \psi(\textbf{x}). }[/math]
基于其特殊结构,可对其进行傅里叶变换:
[math]\displaystyle{ \hat{\mathcal{K}}(\omega)\hat{\psi}(\omega)=\mathcal{F}\left\{\mathcal{K}(\mathbf{y})\right\}\mathcal{F}\left\{\psi(\mathbf{y})\right\}=\zeta^2\hat{\psi}(\omega). }[/math]
所以最终我们可以在新的频率空间中,找到一种类似于奇异值谱的函数,我们称为高斯分布的奇异函数:
[math]\displaystyle{ \zeta^\alpha(\omega)=\{{\rm det}(\Sigma)^{\frac{1}{2}}{\rm pdet}(A^T\Sigma^{-1} A)^{\frac{1}{2}}\}^{-\frac{\alpha}{2}}\exp\left\{-\frac{\alpha}{2}\left(\omega^T(A^T\Sigma^{-1}A)^{\dagger}\omega\right)\right\} }[/math]
这里,[math]\displaystyle{ {\rm pdet} }[/math]代表伪行列式,[math]\displaystyle{ † }[/math]代表Moore-Penrose伪逆运算。由此,我们可以计算其近似动 力学可逆性指标[math]\displaystyle{ Γ_𝛼 }[/math]:
[math]\displaystyle{ \Gamma_\alpha=\left(\frac{2\pi}{\alpha}\right)^\frac{n}{2}{\rm pdet}(A^T\Sigma^{-1}A)^{\frac{1}{2}-\frac{\alpha}{4}}{\rm det}(\Sigma^{-1})^\frac{\alpha}{4} }[/math]
可见逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]共同影响了近似可逆性的大小,可以理解为,必须两个协方差都很小,非满秩或病态的维度影响较小的时候,系统动力学才有更强的可逆性。
维度平均
进一步,可以可逆性指标取对数并去掉常数项,得到维度平均的指标
[math]\displaystyle{ \hat\gamma_\alpha=\gamma_\alpha-\frac{1}{2}\ln\left(\frac{2\pi}{\alpha}\right)=\frac{1}{n}\ln\Gamma_\alpha-\frac{1}{2}\ln\left(\frac{2\pi}{\alpha}\right)=\frac{1}{n}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r}\ln s_i+\frac{\alpha}{4n}\sum_{i=1}^{n}\ln\kappa_i }[/math]
这里,[math]\displaystyle{ 𝑠_𝑖 }[/math]为矩阵[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]的第[math]\displaystyle{ i }[/math]个奇异值,[math]\displaystyle{ 𝜅_𝑖 }[/math]为矩阵[math]\displaystyle{ Σ^{−1} }[/math]的第i个奇异值。因此,我们只需要分析这两个奇异值构成的联合谱,即可定量刻画系统的因果涌现特性了。也就是说,我们把原转移概率矩阵的奇异值分解转变为了对[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]和[math]\displaystyle{ Σ^{−1} }[/math]这两个矩阵的奇异值分解问题。其中,[math]\displaystyle{ Σ^{−1} }[/math]为正向动力学,即[math]\displaystyle{ p(x_{t+1}|x_t)=\mathcal{N}(0,\Sigma) }[/math]的协方差矩阵之逆,而[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]则是[math]\displaystyle{ p(x_{t+1}|x_t) }[/math]的逆向动力学的协方差矩阵。
确定性和简并性
通过调整参数[math]\displaystyle{ \alpha\in(0,2] }[/math],可以使更好地反映P的确定性或者简并性。当[math]\displaystyle{ \alpha\to0,\Gamma_{\alpha} }[/math]收敛到
[math]\displaystyle{ \Gamma_{\alpha\to 0}\to\left(\frac{2\pi}{\alpha}\right)_{\alpha\to 0}^\frac{n}{2}{\rm pdet}(A^T\Sigma^{-1}A)^{\frac{1}{2}}, }[/math]
此时[math]\displaystyle{ \Gamma_{\alpha\to 0} }[/math]只由逆向动力学的协方差矩阵或信息熵决定,而逆向动力学的熵直接影响系统的简并性。然而,定义不允许[math]\displaystyle{ \alpha }[/math]精确为零,这样会导致指标趋于无穷。
同样,当[math]\displaystyle{ \alpha=2 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]收敛到
[math]\displaystyle{ \Gamma_2=\left(\pi\right)^\frac{n}{2}{\rm det}(\Sigma^{-1})^\frac{1}{2}, }[/math]
协方差矩阵的逆越大,意味着动力学变得更加可逆。在实践中总是取[math]\displaystyle{ \alpha=1 }[/math]来平衡[math]\displaystyle{ \Gamma }[/math]测量确定性和简并性的倾向。
高斯噪声迭代系统基于SVD的因果涌现
同样,在规定[math]\displaystyle{ \epsilon\geq 0 }[/math]之后,我们可以筛选两个协方差矩阵的奇异值来计算因果涌现,即
[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)\equiv\hat{\gamma}_\alpha(\epsilon)-\hat\gamma_\alpha=\frac{1}{r_\epsilon}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r_\epsilon}\ln s_i+\frac{\alpha}{4r_\epsilon}\sum_{i=1}^{r_\epsilon}\ln\kappa_i-\frac{1}{n}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r}\ln s_i-\frac{\alpha}{4n}\sum_{i=1}^{n}\ln\kappa_i. }[/math]
其中[math]\displaystyle{ r_\epsilon\equiv\min\{r_\epsilon(A^T\Sigma^{-1} A),r_\epsilon(\Sigma^{-1})\} }[/math]取得是两个矩阵有效秩的最小值。[math]\displaystyle{ \epsilon= 0 }[/math]就是清晰因果涌现,[math]\displaystyle{ \epsilon\gt 0 }[/math]就是模糊因果涌现。
根据连续系统基于有效信息的的因果涌现
[math]\displaystyle{ \Delta\mathcal{J}^{*}=\frac{1}{2k}\sum_{i=1}^{k}\ln s_i-\frac{1}{2n}\sum_{i=1}^{n}\ln s_i, }[/math]
我们可以近似得到线性相关关系
[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)\simeq(1-\frac{\alpha}{4})\Delta\mathcal{J}^*. }[/math]
更精确的证明[math]\displaystyle{ \Gamma_\alpha }[/math]与[math]\displaystyle{ EI }[/math]可以相互替代。
基于有效信息(EI)与基于可逆性的两种因果涌现的对比
TPM矩阵
TPM矩阵基于有效信息(EI)与基于可逆性的两种因果涌现可以通过直接对近似可逆性和有效信息进行数值模拟和可视化得到近似的关系。
定理3:对于任意 TPM P 和 [math]\displaystyle{ \alpha\in(0,2) }[/math],[math]\displaystyle{ \Gamma_{\alpha} }[/math]的对数和EI都有相同的最小值0和一个共同的极小值点(当[math]\displaystyle{ P=\frac{1}{N} \mathbb{1}_{N\times{N}} }[/math]时取到),其中[math]\displaystyle{ \mathbb{1} }[/math]是全1矩阵。它们还有相同的最大值[math]\displaystyle{ \log{N} }[/math],最大值点对应于P是一个置换矩阵。
因此当P是可逆的(置换矩阵)时,[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]和EI可以达到最大值[math]\displaystyle{ \log{N} }[/math]。当[math]\displaystyle{ P_{i}=\frac{\mathbb{1}}{N},\forall{i}\in[1,N] }[/math],它们也可以达到最小值0。然而,我们可以证明[math]\displaystyle{ \frac{\mathbb{1}}{N} }[/math]并不是EI的唯一最小点,对于任何满足[math]\displaystyle{ P_{i}=P_{j},\forall{i}\in{[1,N]} }[/math]的TPM都能使EI=0。其次EI的上限和下限都是[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的线性项。
定理4:对于任何TPM P,其有效信息EI的上限为[math]\displaystyle{ \frac{2}{\alpha}\log{\Gamma_{\alpha}} }[/math],下限为[math]\displaystyle{ \log{\Gamma_{\alpha}}-\log{N} }[/math].
因此,有如下不等式:
[math]\displaystyle{ \begin{aligned} \log{\Gamma_{\alpha}}-\log{N}\le{EI}\le\frac{2}{\alpha}\log{\Gamma_{\alpha}} \end{aligned} }[/math]
实际上,EI有一个更严格的上限,[math]\displaystyle{ EI\le\log{\Gamma_{\alpha}} }[/math],这个上限是由数值实验的结果确定的。我们发现在许多例子中,EI和[math]\displaystyle{ \log\Gamma_{\alpha} }[/math]具有近似线性关系,因此,基于可逆性的因果涌现理论主张:
[math]\displaystyle{ \begin{aligned} EI\sim\log\Gamma_{\alpha}. \end{aligned} }[/math]
相似性
根据前文,EI的上界和下界分别是[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的线性项。由此还可以推测两者具有近似关系:[math]\displaystyle{ EI\sim\log{\Gamma_{\alpha}} }[/math]。下面通过数值模拟说明这一点。
如下图所示,在由三种不同方法生成的各种归一化的TPM 上比较了[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]和 EI:1)软化置换矩阵;2)软化退化矩阵;3)完全随机矩阵。以下是具体生成步骤:
软化置换矩阵:
1)随机生成一个N阶置换矩阵P;
2)对于P中的每个行向量[math]\displaystyle{ P_{i} }[/math],假设1元素的位置是[math]\displaystyle{ j_{i} }[/math],我们将[math]\displaystyle{ P_{i} }[/math]的所有条目填入位于[math]\displaystyle{ j_{i} }[/math]处的高斯分布中心的概率,即[math]\displaystyle{ P'_{i,j} = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(j - j_i)^2}{\sigma^2} \right) }[/math],其中,[math]\displaystyle{ \sigma }[/math]是软化程度的自由参数;
3) 将[math]\displaystyle{ \sum_{j=1}^{N} P'_{ij} = 1 }[/math]除以新的行向量,使其归一化,这样修改后的矩阵[math]\displaystyle{ P' }[/math]也是一个TPM。
软化退化矩阵:
生成方式与软化置换矩阵非常相似,但原始矩阵P不是置换矩阵,而是退化矩阵。退化意味着有一些行向量是相同的,相同行向量的数量用N - r表示,它是受控变量,其中r是P的秩。通过调整N-r,我们可以控制TPM的退化程度。
完全随机矩阵:
1) 从[0, 1]上的均匀分布中抽取一个行随机向量;
2) 对该行向量进行归一化处理,使生成的矩阵是一个TPM。
图(a)、(b)和(c)表明,在这些例子中都观察到了正相关性,并且在N ≫ 1 时,[math]\displaystyle{ EI\sim\log{\Gamma_{\alpha}}. }[/math]的近似关系得到了证实。在(a) 和 (b) 中可以明显观察到这种关系,但在(b) 中,由于覆盖了有限的[math]\displaystyle{ \Gamma }[/math]值区域,这种关系退化为近似线性关系。
图(a)和(b)中用红色虚线表示了 EI 的上下限。不过,在图(c)中,由于所有点都集中在一个小区域内,因此看不到理论边界线。根据经验,图中灰色断线所示的[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的上限更为严格。因此可以推测 [math]\displaystyle{ EI\le\log{\Gamma_{\alpha}} }[/math]这一新关系是成立的,但其严密性有待证明。
文献中作者还在大小为N=2 的最简单参数化TPM中得到了EI和[math]\displaystyle{ \Gamma }[/math]的解析解,并展示了EI和[math]\displaystyle{ \Gamma }[/math]与参数p和q的关系。其中p和q用于生成最简单的[math]\displaystyle{ 2 \times 2 }[/math]马尔科夫矩阵[math]\displaystyle{ P=\begin{pmatrix} p& 1-p\\ 1-q & q \end{pmatrix} }[/math],下图(a)表示[math]\displaystyle{ \Gamma }[/math]随p和q的变化,图(b)表示EI随p和q 的变化。(a)和(b)之间的差异显而易见:1)当[math]\displaystyle{ p\approx 1-q }[/math]时,[math]\displaystyle{ \Gamma }[/math]有一个峰值,但EI没有;2)观察到EI ≈ 0时的区域更宽,而[math]\displaystyle{ \Gamma\approx 1 }[/math]时的区域要小得多;3)观察到[math]\displaystyle{ \Gamma }[/math]有一个从0到最大N=2的渐进过渡,但EI没有。 因此,我们得出结论,EI和[math]\displaystyle{ \Gamma }[/math]在各种TPM上高度相关。
不同
首先,EI 通过KL散度来量化每个行向量与P的平均行向量之间的差异,衡量的是行向量之间的相似性。相反,[math]\displaystyle{ \Gamma_{\alpha} }[/math]评估的是动力学可逆性,特别是当[math]\displaystyle{ \alpha }[/math]接近 0 时,这与行向量之间的线性相互依赖性相关。虽然行向量的线性相互依赖性表明它们的相似性——这意味着两个相同的行向量是线性相关的,但反之则不一定成立。因此,[math]\displaystyle{ \Gamma_{\alpha} }[/math]不仅捕获了行向量之间的相似性,而且还捕获了P与动力学可逆矩阵的接近度。相比之下,EI无法完成这个任务。
可以通过以下数值实验来验证这一点:可以通过将线性相关行向量与线性独立行向量混合来创建TPM,其中独立向量的数量或等级是受控参数。首先,生成r个独立的独热向量,然后软化这些行向量,软化程度由[math]\displaystyle{ \sigma }[/math]确定。随后,通过将这些软化的独热向量与随机选择的线性系数线性组合来创建额外的行向量。然后量化[math]\displaystyle{ \Gamma }[/math]和 EI 之间的差异,结果如下图所示。
很明显,对于较小的r值,随着[math]\displaystyle{ \sigma }[/math]的增加,[math]\displaystyle{ \log{\Gamma} }[/math]和 EI 之间的差异会减小,因为 P 的线性依赖性随着向量变得更加明显而增强。这强调了线性相关性并不等于行向量之间的相似性。然而,随着独立行向量数量的增加,如果[math]\displaystyle{ \sigma }[/math]保持很小,P会收敛到置换矩阵。因此,EI 和[math]\displaystyle{ \log{\Gamma} }[/math]都达到相同的最大值。这解释了为什么当r很大时会出现轻微的颠簸。
其次,即使在所有行向量相同的情况下,EI 和[math]\displaystyle{ \Gamma_{\alpha} }[/math]之间也存在显着区别,导致 EI= 0 而[math]\displaystyle{ \Gamma_{\alpha}= ||\overline{P}||^{\alpha}\cdot N^{\alpha /2} }[/math],而这是一个可以随[math]\displaystyle{ ||\overline{P}|| }[/math]变化的量。这种差异意味着,与 EI 不同,[math]\displaystyle{ \Gamma_{\alpha} }[/math]可以提供有关行向量的更全面的见解,超越其与平均行向量的相似性。
高斯噪声迭代系统
和TPM有所不同,高斯噪声迭代系统下,动力学近似可逆性和维度平均有效信息同的关系,可以用两者和动力学参数矩阵[math]\displaystyle{ A }[/math]和协方差矩阵[math]\displaystyle{ \Sigma }[/math]两个矩阵的线性关系直接求出近似的解析解。
当逆向动力学[math]\displaystyle{ p(x_t|x_{t+1})=\mathcal{N}(A^\dagger x_{t+1}-A^\dagger a_0,A^\dagger\Sigma(A^\dagger)^T) }[/math]接近一个标准化的正态分布[math]\displaystyle{ A^\dagger\Sigma(A^\dagger)^T\approx I_n }[/math], [math]\displaystyle{ \Gamma_\alpha }[/math]和维度平均的有效信息满足关系
[math]\displaystyle{ \ln\Gamma_\alpha\simeq n(1-\frac{\alpha}{4})\mathcal{J}+C. }[/math]
其中[math]\displaystyle{ \ln\Gamma_\alpha }[/math]是对近似可逆性取对数后得到的可逆信息,[math]\displaystyle{ C=\frac{n}{2}\ln\left(\frac{2\pi}{\alpha}\right) -n(1-\frac{\alpha}{4})\ln(\frac{L}{\sqrt{2\pi e}}) }[/math]是与[math]\displaystyle{ A }[/math]和[math]\displaystyle{ \Sigma }[/math]无关的常数项。当[math]\displaystyle{ p(x_t|x_{t+1})=\mathcal{N}(A^\dagger x_{t+1}-A^\dagger a_0,A^\dagger\Sigma(A^\dagger)^T) }[/math]是一个标准化的正态分布, 且[math]\displaystyle{ A\in\mathcal{R}^{m\times n} }[/math]是可逆矩阵的时候,等号成立。
最优化后的基于维度平均有效信息的因果涌现和基于SVD的因果涌现,则可以消除维度和常数项的干扰,得到基于SVD的因果涌现和基于EI的因果涌现的近似线性关系
[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)\simeq(1-\frac{\alpha}{4})\Delta\mathcal{J}^*. }[/math]
从高斯迭代系统,可以更清晰的看成可逆性和有效信息的线性相关性,证明两者在一定程度上可以相互验证或替换
基于SVD分解的新粗粒化策略
TPM矩阵的粗粒化方法
虽然无需粗粒化也能定义和量化清晰或模糊因果涌现,但需要对原始系统进行更简单的粗粒化描述,以便与 EI 得出的结果进行比较。因此,该理论提供了一种基于奇异值分解的粗粒化方法,以获得宏观层面的简化TPM。其基本思想是将 P 中的行向量 [math]\displaystyle{ P_{i},\forall i \in [1,N] }[/math]投影到[math]\displaystyle{ P\cdot P^{T} }[/math]的特征向量张成的子空间上,从而保留P的主要信息,并保持[math]\displaystyle{ \Gamma }[/math]不变。
该方法的基本思路是将P中的所有行向量[math]\displaystyle{ P_{i} }[/math]视为维数为N的数据向量,然后首先对这些行向量进行PCA降维,其次将其聚类为r个簇,其中r是根据奇异值频谱的阈值[math]\displaystyle{ \epsilon }[/math]选取的。有了聚类,我们就可以根据所有平稳流都是保守的原则,对原始TPM进行粗粒化。
1) 对P进行SVD分解(假设P是不可归约的,且具有周期性,从而存在平稳分布):
[math]\displaystyle{ P=U\cdot \Sigma \cdot V^{T}, }[/math]
其中,[math]\displaystyle{ U }[/math]和[math]\displaystyle{ V }[/math]是两个尺寸为N×N的正交归一化矩阵,[math]\displaystyle{ \Sigma = diag(\sigma_{1},\sigma_{2},...,\sigma_{N}) }[/math] 是一个对角矩阵,包含所有有序奇异值。
2)选择一个[math]\displaystyle{ \epsilon }[/math]作为阈值来切断奇异值谱,并得到[math]\displaystyle{ r_{\epsilon} }[/math]作为保留状态的个数;
3)通过计算[math]\displaystyle{ \tilde{P}\equiv P\cdot V_{N\times r_{\epsilon}} }[/math]对P中的所有[math]\displaystyle{ P_{i} }[/math]进行降维,其中[math]\displaystyle{ V_{N\times r_{\epsilon}} }[/math]由[math]\displaystyle{ P\cdot P^{T} }[/math]的前[math]\displaystyle{ r_{\epsilon} }[/math]特征向量构成;
4) 通过 K-means 算法将[math]\displaystyle{ \tilde{P} }[/math]中的所有行向量聚类为r组,得到投影矩阵[math]\displaystyle{ \Phi }[/math],其定义为:
[math]\displaystyle{ \Phi_{ij} =\begin{cases} 1, & \text{如果}\tilde{P_{i}}\text{属于第r组}\\ 0, & \text{其他情况} \end{cases} }[/math]
对[math]\displaystyle{ \forall i,j \in [1,N] }[/math]都成立。
5) 利用[math]\displaystyle{ \Phi }[/math]和P得到新的TPM。
为了说明如何获得简化的TPM,首先定义一个矩阵,称为平稳流矩阵,如下所示:
[math]\displaystyle{ F_{ij} \equiv \mu_i \cdot P_{ij}, \, \forall i,j \in [1, N], }[/math]
其中,[math]\displaystyle{ \mu }[/math]是P的平稳分布,满足[math]\displaystyle{ P\cdot\mu=\mu }[/math]。
其次,我们将根据 [math]\displaystyle{ \Phi }[/math]和[math]\displaystyle{ F }[/math]推导出简化平稳流矩阵:
[math]\displaystyle{ F' = \Phi^T \cdot F \cdot \Phi, }[/math]
其中,F'是简化平稳流矩阵。最后,粗粒化后的TPM可直接通过以下公式得出:
[math]\displaystyle{ P'_i = F'_i / \sum_{j=1}^{N} (F'_i)_j, \, \forall i \in [1, N]. }[/math]
高斯噪声迭代系统基于SVD的粗粒化策略
在得到基于奇异值的因果涌现之后,和TPM矩阵类似,我们也可以根据逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]的奇异向量,指定在高斯迭代系统上的粗粒化策略,将高维的向量映射到低维空间。基于SVD的理论,我们可以知道,[math]\displaystyle{ 𝐴𝑇Σ^{−1}𝐴 }[/math]和[math]\displaystyle{ Σ^{−1} }[/math]都是对称矩阵,因此我们可以直接得到SVD分解
[math]\displaystyle{ A^T\Sigma^{-1}A=USU^T }[/math]
和
[math]\displaystyle{ \Sigma^{-1}=VKV^T }[/math]
其中[math]\displaystyle{ S={\rm diag}(s_1,\cdots,s_n) }[/math]和[math]\displaystyle{ K={\rm diag}(\kappa_i,\cdots,\kappa_n) }[/math]分别是奇异值[math]\displaystyle{ s_1\geq\cdots\geq s_n }[/math]和[math]\displaystyle{ \kappa_1\geq\cdots\geq \kappa_n$ }[/math]组成的对角矩阵,奇异向量矩阵[math]\displaystyle{ U=(u_1,\cdots,u_n) }[/math]和[math]\displaystyle{ V=(v_1,\cdots,v_n) }[/math]分别包含了两组奇异值对应的奇异向量,他们也可以分别看成两个生成空间的正交积。当我们得到[math]\displaystyle{ r_\epsilon }[/math]之后, 理论上我们就分别需要保留奇异值[math]\displaystyle{ s_1,\cdots,s_{r_\epsilon} }[/math]和[math]\displaystyle{ \kappa_1,\cdots, \kappa_{r_\epsilon} }[/math],因此粗粒化映射[math]\displaystyle{ \phi(x_t)=Wx_t }[/math]中的参数矩阵[math]\displaystyle{ W\in\mathcal{R}^{r_\epsilon\times n} }[/math]应他们对应的奇异向量尽量平行而不是正交。 我们可以根据有效秩,将奇异向量划分为
[math]\displaystyle{ U=(U_1,U_2),U_1\in\mathcal{R}^{n\times r_\epsilon},U_2\in\mathcal{R}^{n\times (n-r_\epsilon)} }[/math]
和
[math]\displaystyle{ V=(V_1,V_2),V_1\in\mathcal{R}^{n\times r_\epsilon},V_2\in\mathcal{R}^{n\times (n-r_\epsilon)} }[/math]
两部分,这样对于粗粒化策略的制定就变成了让[math]\displaystyle{ WU_1 }[/math],[math]\displaystyle{ WV_1 }[/math]尽量接近单位矩阵,而让[math]\displaystyle{ WU_2 }[/math],[math]\displaystyle{ WV_2 }[/math]尽量接近0。但是[math]\displaystyle{ U,V }[/math]并不是在所有系统重都能保证相等,所以我们就需要对两个矩阵的生成空间进行分类讨论。我们主要讨论两组生成空间
[math]\displaystyle{ \Omega_{{\rm I}}=\mathcal{M}(U_1)\cap\mathcal{M}(V_1),\Omega_{{\rm II}}=(\mathcal{M}(U_1)\cap\mathcal{M}(V_2))\cup(\mathcal{M}(U_2)\cap\mathcal{M}(V_1)). }[/math]
其中[math]\displaystyle{ \Omega_{{\rm I}} }[/math]对应[math]\displaystyle{ U_1 }[/math]和[math]\displaystyle{ V_1 }[/math]生成空间的交空间,若粗粒化策略的几个维度从该空间生成,那么该空间中的奇异向量对应的奇异值都会被保留,不存在冲突。而[math]\displaystyle{ \Omega_{{\rm II}} }[/math]中的向量不与[math]\displaystyle{ U_2 }[/math]和[math]\displaystyle{ V_2 }[/math]正交,这意味着,在保留大于[math]\displaystyle{ \epsilon }[/math]的奇异值的同时,会有理论上应被舍弃的奇异值保留下来。由于[math]\displaystyle{ \Omega_{{\rm I}} }[/math]包含于[math]\displaystyle{ U_1 }[/math]和[math]\displaystyle{ V_1 }[/math]生成空间,所以他的维度可能会小于[math]\displaystyle{ r_\epsilon }[/math],因此我们仍然需要从[math]\displaystyle{ \Omega_{{\rm II}} }[/math]中生成向量补全[math]\displaystyle{ W\in\mathcal{R}^{r_\epsilon\times n} }[/math]的维度。因此我们生成粗粒化策略的参数矩阵可以分为两步。
协同粗粒化
第一步,就是从[math]\displaystyle{ \Omega_{{\rm I}} }[/math]中生成可以同时保留大于[math]\displaystyle{ \epsilon }[/math]的奇异值,且不存在冲突的部分。首先我们要计算出矩阵[math]\displaystyle{ (U_1,-V_1) }[/math]的零空间的施密特正交基,
[math]\displaystyle{ \left(\begin{array}{c} \mathscr{A} \\ \mathscr{B} \end{array}\right)={\rm Schmidt}({\rm Null}(U_1,-V_1))\in\mathcal{R}^{2r_\epsilon\times r_I} }[/math]
并对正交基进行线性变换,得到[math]\displaystyle{ W\in\mathcal{R}^{r_\epsilon\times n} }[/math]矩阵的第一块
[math]\displaystyle{ W_{\rm I}^T=U_1\mathscr{A} =V_1\mathscr{B} \in\mathcal{R}^{n\times r_{{\rm I}}} }[/math]
调和粗粒化
由于[math]\displaystyle{ \Omega_{{\rm I}} }[/math]包含于[math]\displaystyle{ U_1 }[/math]和[math]\displaystyle{ V_1 }[/math]生成空间,所以他的维度[math]\displaystyle{ r_{{\rm I}}\leq r_\epsilon }[/math],因此我们仍需要[math]\displaystyle{ r_{{\rm II}}= r_\epsilon-r_{{\rm I}} }[/math]个[math]\displaystyle{ \Omega_{{\rm II}} }[/math]中的向量来补全[math]\displaystyle{ W }[/math],这里我们就可以尽量在包含于[math]\displaystyle{ \Omega_{{\rm II}} }[/math]中的向量对应的较大的奇异值被保留。我们可以将这些奇异值放入向量[math]\displaystyle{ \mathbf{S}=\{s_i,\kappa_j|u_i,v_j\in\Omega_2\} }[/math]中,并从大到小进行排列得到[math]\displaystyle{ Q=(q_i|q_i\in\mathbf{S}) }[/math]后,取其中最大的[math]\displaystyle{ r_{{\rm II}} }[/math]个奇异值对应的奇异向量,并进行施密特正交化,得到[math]\displaystyle{ W\in\mathcal{R}^{r_\epsilon\times n} }[/math]矩阵的第二块
[math]\displaystyle{ W_{{\rm II}}^T={\rm Schmidt}(u_{i|s_i\in\hat{Q}},v_{i|\kappa_i\in\hat{Q}})\in\mathcal{R}^{n\times r_{{\rm II}}}. }[/math]
最终粗粒化策略
最终我们可以将[math]\displaystyle{ W_{\rm I} }[/math]和[math]\displaystyle{ W_{\rm II} }[/math]两个矩阵拼接得到最终的粗粒化参数矩阵
[math]\displaystyle{ W=\left(\begin{array}{c} W_{{\rm I}} \\ W_{{\rm II}} \end{array}\right)\in\mathcal{R}^{r_\epsilon\times n}. }[/math]
该策略可以让我们得到的宏观态的近似可逆性,比只使用[math]\displaystyle{ W=U_1 }[/math]或[math]\displaystyle{ W=V_1 }[/math]更接近真实的基于有效秩删减奇异值后得到的近似可逆性。
测试量化因果涌现的效果
离散系统
布尔网络
下面基于Hoel等人的论文[14][15]中提出的几种布尔网络马尔可夫动力学来测试清晰和模糊因果涌现的定义。
下图(a)-(i)分别显示了从具有相同节点机制的相同布尔网络模型生成的用于清晰因果涌现和模糊因果涌现的TPM的两个示例。图(c) 表示通过粗粒化(a)得到的新布尔网络,粗粒化策略是从 (f) 和 (i) 的 TPM 中提取的。图(d)中的TPM直接源自图(a)和(b)中的布尔网络及其节点机制。它们的奇异值谱分别如图(e)和(h)所示。(d)中的例子只有4个非零奇异值,奇异频谱如图(e)所示,因此,出现明显的因果涌现,且因果涌现的程度为[math]\displaystyle{ \Delta\Gamma=0.75 }[/math]。 因果涌现的判断与参考文献[14]相同。(f) 和 (i) 分别是对 (d) 和 (g) 中的原始 TPM 应用粗粒化方法后缩减的TPM和投影矩阵。
图(g)中的TPM可以显示出模糊的因果涌现,这是在(d)中的TPM上添加强度为(std = 0.03)的随机高斯噪声后得到的。因此,奇异频谱如图(h)所示。我们选择[math]\displaystyle{ \epsilon=0.2 }[/math]作为阈值,这样就只剩下4个大的奇异值。因果涌现程度为[math]\displaystyle{ \Delta\Gamma(0.2)=0.69 }[/math]。[math]\displaystyle{ \epsilon }[/math]值是根据图(h)中的奇异值频谱选择的,在图(h)中可以观察到指数为3和[math]\displaystyle{ \epsilon=0.2 }[/math]时有一个明显的分界点。
下图显示了另一个更复杂的布尔网络模型的明显因果涌现例子,该模型来自参考文献[14],其中具有相同节点机制的6个节点可归类为3个超级节点,以显示因果涌现。(a)为6节点12边的布尔网络模型。 (b)是根据(e)中的TPM得出的粗粒化后的布尔网络模型。原始布尔网络模型的相应TPM如图(c)所示。奇异值频谱如图(d)所示,其中有8个非零值。这个清晰因果涌现的程度为[math]\displaystyle{ \Delta\Gamma=2.23 }[/math]。对因果涌现的判断与[14]相同。(e) 是对(c)的粗粒化。(f) 是根据基于 SVD 的粗粒化方法得到的从微观状态到宏观状态的投影矩阵。
复杂网络
对因果涌现的量化可应用于复杂网络,如下图所示。图(a)-(c)显示了由随机块模型(SBM)生成的具有三组参数(内部连接概率)的复杂网络的模糊因果涌现例子。TPM是通过对网络的邻接矩阵按每个节点的度进行归一化得到的。图(a)显示了一个有 100 个节点和 5 个区块(社区)的示例网络,图(b)显示了其奇异值频谱,同图中还显示了另外两个由SBM生成的网络光谱,它们的大小和块数相同,但参数不同。图(c) 是利用基于SVD的粗粒化方法进行缩减后的 (a) 网络。图(b)中,在与区块数相同的横坐标上可以观察到一个明显的分界点[math]\displaystyle{ (\epsilon=0.3,r_{\epsilon}=5) }[/math]。可以确定,在这个网络模型中出现了模糊的因果涌现,程度为[math]\displaystyle{ \Delta\Gamma(0.3)=0.56 }[/math]。
元胞自动机
如下图所示,关于清晰因果涌现的定义可应用于元胞自动机,以发现其局部涌现结构。在这个例子里刻画了元胞自动机(编号40的基本一维元胞自动机)局部TPM的清晰因果涌现。(a)是第40号元胞自动机的演化(规则是:000 → 0, 001 → 0, 010 → 1, 011 → 0, 100 → 1, 101 → 0, 110 → 0, 111 → 0)。局部TPM 由包括每个单元及其两个相邻单元的局部窗口获得。图(b) 显示了这些局部 TPM 的奇异值的可能频谱,在这些频谱中可能出现也可能不出现清晰因果涌现。图(c)用红点标记显示了所有单元和时间步长的清晰因果涌现分布([math]\displaystyle{ \Delta\Gamma }[/math])。
连续系统
增长模型
假设一个4维的向量,前两个维度[math]\displaystyle{ x_1,x_2 }[/math]遵循增长率为0.2和0.05的马尔萨斯增长模型。同时另外两个维度[math]\displaystyle{ x_3,x_4 }[/math]直接复制了前两个维度的状态,他们和前两个维度高度相关,甚至可以视为冗余的维度。我们设微观态[math]\displaystyle{ x=(x_1,x_2,x_3,x_4) }[/math], 模型的动力学可以写成[math]\displaystyle{ x_{t+1}=a_0+Ax_t+\varepsilon_t, \varepsilon_t\sim\mathcal{N}(0,\sigma^2 I_4) }[/math]其中[math]\displaystyle{ x_t,x_{t+1}\in\mathcal{R}^{4} }[/math], [math]\displaystyle{ \sigma^2=0.1 }[/math], [math]\displaystyle{ a_0=0 }[/math], 并且
[math]\displaystyle{ A = \left(\begin{matrix} 1.2 & 0 &0 &0 \\ 0 & 1.05 &0 &0 \\ 1.2 & 0 &0 &0 \\ 0 & 1.05 &0 &0 \end{matrix}\right). }[/math]
该矩阵只有两个奇异值矩阵秩[math]\displaystyle{ r=2\lt 4 }[/math]。由于正向矩阵是对角单位阵和常数数乘得到,因此我们只需要考虑逆向动力学的矩阵。如图e所示,横轴表示逆向动力学协方差矩阵的奇异值[math]\displaystyle{ s_1\geq\dots\geq s_4 }[/math], 纵轴表示奇异值大小, 通过计算我们可以得知清晰因果涌现为[math]\displaystyle{ \Delta\Gamma_\alpha(0)=0.4034 }[/math]。
同时我们可以对矩阵A增加一些扰动,使
[math]\displaystyle{ A = \left(\begin{matrix} 1.2 & 0 &0 &0 \\ 0 & 1.05 &0.001 &0 \\ 1.22 & 0 &0.4 &0.1 \\ 0 & 1.06 &0.03 &0.5 \end{matrix}\right) }[/math]
此时A和[math]\displaystyle{ A^T\Sigma^{-1}A }[/math]都是满秩矩阵,但是通过观察图f中的奇异值谱,我们只能看到两个较大的逆向动力学奇异值[math]\displaystyle{ s_1,s_2 }[/math],此时我们就需要引入模糊因果涌现。我们规定阈值[math]\displaystyle{ \epsilon=2 }[/math], 模糊因果涌现可以计算得到[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)=0.4195 }[/math]。
我们可以直接得到图g和h中的粗粒化策略参数矩阵,可以看到A不满秩的时候,粗粒化策略只保留了前两个维度的信息,而A满秩的时候,粗粒化策略将[math]\displaystyle{ x_1,x_3 }[/math]信息合并,[math]\displaystyle{ x_2,x_4 }[/math]信息合并,一次达到降维的效果。
离散化布朗运动
离散布朗运动是离散时间内连续布朗运动的近似,常用于数值模拟和随机过程建模。方程[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t }[/math]可以被视为奥恩斯坦-乌伦贝克(OU)过程的离散版本方法。在这个模型中,[math]\displaystyle{ \mu=a_0+Ax_t }[/math]是影响状态演化的漂移向量,协方差矩阵[math]\displaystyle{ \Sigma }[/math]表示扩散系数,它决定了[math]\displaystyle{ \varepsilon_t }[/math]维度上随机波动的幅度和相关性。
对[math]\displaystyle{ \Sigma^{-1} }[/math]和[math]\displaystyle{ A^T\Sigma^{-1}A }[/math]进行SVD分解之后我们可以得到奇异向量矩阵[math]\displaystyle{ U=(u_1,\cdots,u_n) }[/math]和[math]\displaystyle{ V=(v_1,\cdots,v_n) }[/math]其中
[math]\displaystyle{ \begin{aligned} U=\begin{pmatrix} 1& 0& 0& 0& 0& 0& 0& 0 \\ 0& 1& 0& 0& 0& 0& 0& 0 \\ 0& 0& 1& 0& 0& 0& 0& 0 \\ 0& 0& 0& 1& 0& 0& 0& 0 \\ 0& 0& 0& 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0\\ 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0\\ 0& 0& 0& 0& 0& 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}\\ 0& 0& 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}} \end{pmatrix}, V=\begin{pmatrix} 0& 0& 0& 0& \frac{1}{\sqrt{2}}& 0& 0& \frac{1}{\sqrt{2}} \\ 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0& 0& 0& 0 \\ 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0& 0& 0& 0 \\ 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& 0& 0& \frac{1}{\sqrt{2}} \\ 1& 0& 0& 0& 0& 0& 0& 0\\ 0& 0& 0& 0& 0& 1& 0& 0\\ 0& 0& 0& 0& 0& 0&1& 0\\ 0& 0& 0& 1& 0& 0& 0& 0 \end{pmatrix} \end{aligned} }[/math]
对角化的奇异值矩阵
[math]\displaystyle{ \begin{aligned} S&={\rm diag}(2,1.5,1.3,1.01,0.2,0.12,0.1,0.05)\\ K&={\rm diag}(1.6,1.25,1.1,1.05,0.5,0.4,0.25,0.1). \end{aligned} }[/math]
在得到图m中的奇异值谱之后,规定[math]\displaystyle{ \epsilon=0.6 }[/math],我们可以得到[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)=0.5167 }[/math],其中有效秩[math]\displaystyle{ r_\epsilon=4 }[/math], [math]\displaystyle{ s_1,\cdots,s_4 }[/math]和[math]\displaystyle{ \kappa_1,\cdots,\kappa_4 }[/math]需要被保留。
SIR模型
在NIS+词条中的SIR模型在这里也可以通过可逆性与SVD分解计算因果涌现并研究其底层产生涌现的机理。现实中的大多数系统都无法获得精确的动态模型来计算因果涌现的解析解。然而,我们可以通过观察到的时间序列数据训练神经网络来获得近似动力学。我们用神经网络(NN)在易感-感染-恢复(SIR)模型生成的训练时间序列数据上获得的因果涌现现象,模型有两个自由度,如下所示
[math]\displaystyle{ \begin{aligned} \begin{cases} \frac{\mathrm{d}S}{\mathrm{d}t}=-\beta SI, \\ \frac{\mathrm{d}I}{\mathrm{d}t}=\beta SI - \gamma I, \\ \frac{\mathrm{d}R}{\mathrm{d}t}= \gamma I, \end{cases} \end{aligned} }[/math]
我们可以采取和增长模型相同的数据处理方法,[math]\displaystyle{ x_3,x_4 }[/math]直接复制了前两个维度的状态,得到[math]\displaystyle{ x=(S,I,S,I) }[/math],之后我们可以将模型离散化,即
[math]\displaystyle{ x_{t+\Delta t}\approx x_t+\Delta x_t\sim\mathcal{N}(x_t+f(x_t)\Delta t,\Delta t\Sigma) }[/math]
从图h中可以看出,[math]\displaystyle{ A^T\Sigma^{-1}A }[/math]有两个较大的奇异值,[math]\displaystyle{ r_\epsilon=2 }[/math],因为[math]\displaystyle{ \epsilon=5 }[/math]。在模型训练中,当训练周期为50000时,我们得到因果涌现的值为[math]\displaystyle{ \Delta\Gamma\alpha(\epsilon)=0.8685 }[/math],如图j所示。
参考文献
- ↑ 1.0 1.1 Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.
- ↑ Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.
- ↑ 3.0 3.1 3.2 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.
- ↑ 4.0 4.1 Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.
- ↑ Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279
- ↑ Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.
- ↑ Kaiwei Liu, Linli Pan, Zhipeng Wang, et al. SVD-based Causal Emergence for Gaussian Iterative Systems. arXiv:2502.08261, 2025.
- ↑ Schatten norm from Wikipedia. https://en.wikipedia.org/wiki/Schatten norm
- ↑ Recht, B., Fazel, M., Parrilo, P.A.: Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review 52(3), 471–501 (2010)
- ↑ Chi, Y., Lu, Y.M., Chen, Y.: Nonconvex optimization meets low-rank matrix factorization: An overview. IEEE Transactions on Signal Processing 67(20), 52395269 (2019)
- ↑ 11.0 11.1 Cui, S., Wang, S., Zhuo, J., Li, L., Huang, Q., Tian, Q.: Towards discriminability and diversity: Batch nuclear-norm maximization under label insufficient situations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3941–3950 (2020)
- ↑ Zhang, Jiang, Ruyi Tao, and Bing Yuan. "Dynamical Reversibility and A New Theory of Causal Emergence." arXiv preprint arXiv:2402.15054 (2024).
- ↑ Fazel, M.: Matrix rank minimization with applications. PhD thesis, PhD thesis, Stanford University (2002)
- ↑ 14.0 14.1 14.2 14.3 Hoel, E.P., Albantakis, L., Tononi, G.: Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences of the United States of America 110(49), 19790–19795 (2013) https://doi.org/10.1073/ pnas.1314922110
- ↑ Hoel, E.P.: When the map is better than the territory. Entropy 19(5) (2017) https://doi.org/10.3390/e19050188
编者推荐
下面是一些链接能够帮助读者更好的了解因果涌现的相关信息:
因果涌现读书会
文章推荐
- Jiang Zhang, Ruyi Tao, Keng Hou Leong, et al. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv:2402.15054, 2024
- Yuan, B.; Zhang, J. et al. Emergence and Causality in Complex Systems: A Survey of Causal Emergence and Related Quantitative Studies. Entropy 2024, 26, 108.
路径推荐
- 张江老师根据因果涌现读书会第一季梳理的关于因果涌现的学习路径:https://pattern.swarma.org/article/153
- 张江老师根据因果涌现前五季读书会整理的因果涌现入门路径:https://pattern.swarma.org/article/296
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。