基于可逆性的因果涌现理论
基于可逆性的因果涌现理论是一种量化因果涌现的新框架,该方法基于奇异值分解,提出了近似动力学可逆性([math]\displaystyle{ \Gamma_{\alpha} }[/math])的概念,用于量化马尔科夫动力学接近可逆动力学的程度,该指标在离散的马尔科夫链和连续的具有高斯噪声的连续马尔科夫系统都有相应的表达方式与物理含义;与此同时,该理论还提出了一种不依赖于粗粒化方案就能直接根据动力学的奇异值谱判断因果涌现是否发生的方法。经过理论推导和数值实验证明,在对因果涌现的判断和量化问题上,基于近似可逆性指标的因果涌现判断与Erik Hoel等人提出的基于有效信息(EI)指标最大化的因果涌现判断是等效的,且[math]\displaystyle{ \log\Gamma_{\alpha} }[/math]和EI是存在着渐近近似线性的关系;而在连续高斯噪声迭代系统中,研究者可以推导出一个近似的线性关系公式以表达两种指标的联系。此外,该理论还提出了基于奇异值分解(SVD)的新粗粒化策略,并通过实验证明了该方法的有效性。
历史简介
因果涌现(causal emergence)是指动力系统中的一类特殊的涌现现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于一类马尔科夫动力系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性——即更大的有效信息,那么我们称该系统发生了因果涌现[1][2]。2013年,Hoel等人[1]最早提出了基于有效信息的因果涌现理论,该理论利用有效信息(Effective Information,简称EI)来度量一个动力学的因果效应,并用这一度量来量化复杂系统中的涌现现象。2020年,Rosas等[3]又从信息理论视角出发,提出一种基于信息分解方法的因果涌现理论,该理论用协同信息或者特有信息来定量刻画涌现。2023年,Barnett等人[4]基于转移熵,通过判断宏观动力学与微观动力学的解耦程度来判断涌现的发生,将因果涌现刻画为宏观的变量与微观的变量相互独立的现象。
然而,现有的因果涌现理论存在着一定的局限性。例如,基于有效信息的因果涌现理论是一个依赖于粗粒化方案的理论,不同的粗粒化策略会得到完全不同的因果涌现判断结果。尽管这一局限可以通过最大化有效信息[5]选取粗粒化策略得到一定程度的解决,但是该优化问题还是很难求解。Rosas等人提出了用协同信息量化涌现的方法[3],但是这种计算涉及到多个变量的所有组合,因而计算量会随着变量数的增加而呈现指数增长。Rosas进一步提出了近似计算方案,但是该方法与Erik Hoel的因果涌现理论一样,需要事先指定粗粒化方案或涌现变量[3]。同样地,Seth等人更早提出的用格兰杰因果量化涌现理论也需要在粗粒化方案给定的情况下展开讨论[4]。对于粗粒化方案的过分依赖会使得这些量化涌现理论在不同程度上依赖于观察者的粗粒化策略,因而不能完全反映系统动力学的性质。那么,是否存在着一种不依赖于粗粒化方案的因果涌现理论呢?
2024年,张江等人[6]基于奇异值分解,提出了一套新的因果涌现理论。该理论的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵,通过对它进行奇异值分解,将奇异值的[math]\displaystyle{ \alpha }[/math]次方之和定义为马尔科夫动力学的近似可逆性度量([math]\displaystyle{ \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha} }[/math]),这里[math]\sigma_i[/math]为奇异值,[math]\alpha[/math]为一个参数,用以刻画最终指标偏向于衡量确定性或简并性的程度,通常我们取[math]\alpha=1[/math],表示平权考虑确定性或简并性对最终可逆性度量的影响。该指标与有效信息具有高度的相关性,因而也可以用于刻画动力学的因果效应强度。根据奇异值的谱,该方法可以在不显式定义粗粒化方案的条件下,直接定义所谓清晰因果涌现(clear causal emergence)和模糊因果涌现(vague causal emergence)的概念。
直观地说,如果将一个马尔科夫动力学看作是一个通信信道,那么,每一状态下的概率转移就看作是一个信息通路(information pathway),于是该系统发生因果涌现就等价于系统中存在着冗余的信息通路——存在着一些状态转移与其它状态转移相似或线性相关,而消除这些冗余通路的最好办法就是利用SVD找到等于零或接近于零的奇异值以及对应的奇异向量,这实际上正是最大化有效信息的精髓所在。事实上,我们可以证明,最大化宏观动力学有效信息的粗粒化方案近似等价于将系统的动力学向较大奇异值对应的奇异向量方向做投影的粗粒化方案。而且,系统所能达到的最大信息传输效率的提升(归一化的近似动力学可逆性),就可以定义为因果涌现的强度。
2025年,基于可逆性的的因果涌现理论[7]又被成功地拓展到了高斯噪声迭代系统之中([math]X_{t+1}=a_0+AX_t+\xi_t[/math])。对于一个具有高斯噪声的迭代动力系统,我们可以类比马尔科夫转移矩阵计算奇异值的方法,利用泛函分析和傅里叶变换,得到频域空间中连续动力系统的可逆性度量指标[math]\displaystyle{ \Gamma_{\alpha}\equiv \int_{-\infty}^\infty\sigma^{\alpha}(\omega) }[/math]。而与离散状态空间不同,对于连续的空间,无论状态空间的维数[math]\displaystyle{ n }[/math]取多少[math]\displaystyle{ \mathcal{R}^n }[/math]之间状态数量都是无穷的,状态空间的势(反应集合中点的数量)也都是相同阶的无穷大,因此我们无法直接从状态上进行约减,而需要把涌现的研究对象,从概率空间转移到变量空间,而[math]\displaystyle{ \Gamma_{\alpha} }[/math]恰好与正向动力学的协方差矩阵的逆矩阵[math]\displaystyle{ \Sigma^{-1} }[/math]与逆向动力学的协方差矩阵的逆矩阵[math]\displaystyle{ A^T\Sigma^{-1}A }[/math]都正相关,两个协方差矩阵在一起可以反映变量空间在动力学意义下的可逆性。在变量空间,因果涌现的含义即系统的动力学中存在着冗余的维度,而通过粗粒化方案将动力学向较大奇异值对应的奇异向量上投影,我们便可以获得最大化的维度平均可逆性的提升,这一潜在的提升能力就可以被定义为因果涌现的定量化度量。因此在满足高斯噪声的连续变量空间,我们也可以在不显式定义粗粒化方案的条件下,直接定义所谓清晰因果涌现和模糊因果涌现。
基于可逆性的因果涌现理论与已有的其他因果涌现理论最大的区别就是不需要指定粗粒化策略,仅从马尔科夫转移矩阵或高斯迭代系统的奇异值谱就能判断因果涌现的发生,一定程度上规避了因果涌现结果依赖于粗粒化策略的问题和最大化有效信息的难以优化求解的问题。其次,这套理论指出一个动力系统的因果涌现特性仅仅是系统线性化算符的奇异值谱决定的,因而是一套更加反映系统动力学特性本身的因果涌现理论。
基本概念
下面详细介绍该理论的基本概念,分别是动力学可逆性、近似动力学可逆性、清晰因果涌现和模糊因果涌现。
严格的动力学可逆性
离散动力学
对于给定的马尔可夫链[math]\displaystyle{ \chi }[/math]和对应的转移概率矩阵(Transitional Probability Matrix,简称TPM) P ,如果P同时满足:
- P是可逆矩阵,即存在矩阵[math]\displaystyle{ P^{-1} }[/math],使得[math]\displaystyle{ PP^{-1}=I }[/math],[math]I[/math]为单位矩阵;
- [math]\displaystyle{ P^{-1} }[/math]也是另一个马尔可夫链[math]\displaystyle{ \chi^{-1} }[/math]的有效TPM,
则[math]\displaystyle{ \chi }[/math]和P可以称为严格动力学可逆的。
关于动力学可逆性,我们有如下定理:
定理1:对于一个给定的马尔科夫链[math]\displaystyle{ \chi }[/math]和对应的TPM P,当且仅当P是置换矩阵(Permutation Matrix)的时候,P是严格动力学可逆的。
所谓的置换矩阵是指每一个行向量都是独热向量(one-hot vector,即只有一个元素是1,其余元素均为零的向量),每两个行向量都不相同。
连续动力学
TPM矩阵上基于SVD的因果涌现虽然能得到不依赖粗粒化策略的因果涌现,但是也存在一个弊端,就是只能量化离散条件概率空间的因果效应强度和因果涌现。由于离散概率空间和连续概率空间具有本质的不同,对于连续概率空间的基于SVD的因果涌现,我们需要单独进行分析。这里,我们考虑一个具有代表性的连续变量的动力系统,这就是高斯噪声迭代系统,引入它的基于SVD的因果涌现理论[7]。
高斯噪声的随机迭代系统可以写成:
-
[math]\displaystyle{ X_{𝑡+1} = a_0 + 𝐴⋅𝑋_𝑡 +\xi_𝑡 }[/math]
(1)
其中[math]\displaystyle{ 𝑋_𝑡 }[/math]是t时刻的状态向量, 维数为[math]\displaystyle{ n }[/math],[math]\displaystyle{ \xi_t\sim\mathcal{N}(0,\Sigma) }[/math]为t时刻的噪音变量,[math]\displaystyle{ \Sigma\in\mathcal{R}^{n\times n} }[/math]是它的协方差矩阵。这是一种最简单的连续状态空间的马尔科夫动力学,因此,我们要将SVD方法扩展到这类系统上。
对于给定的随机迭代系统(式1) ,如果它同时满足:
- [math]\displaystyle{ A }[/math]是可逆矩阵,即存在矩阵[math]\displaystyle{ A^{-1} }[/math],使得[math]\displaystyle{ AA^{-1}=I }[/math],[math]I[/math]为单位矩阵;
- 正逆向动力学协方差矩阵满足[math]\displaystyle{ (𝐴^𝑇Σ^{−1}𝐴)\to 0, Σ\to 0 }[/math];
则[math]\displaystyle{ X_{𝑡+1} = a_0 + 𝐴⋅𝑋_𝑡 +\xi_𝑡 }[/math]可以称为严格动力学可逆的,此时动力学等价于一一映射[math]\displaystyle{ X_{𝑡+1} = a_0 + 𝐴⋅𝑋_𝑡 }[/math]。
不难发现,严格可逆的情况下,动力系统可以直接写成可逆映射
[math]\displaystyle{ X_{𝑡+1} = a_0 + 𝐴⋅𝑋_𝑡, }[/math]
其逆动力学为:
[math]\displaystyle{ X_t=A^{-1}X_{t+1}-A^{-1}a_0 }[/math]
此时[math]\displaystyle{ 𝑋_𝑡 }[/math]和[math]\displaystyle{ 𝑋_{t+1} }[/math]可以相互建立一一映射。而[math]\displaystyle{ A }[/math]不可逆或存在噪声[math]\displaystyle{ \xi\sim\mathcal{N}(0,\Sigma) }[/math]的情况下,会造成映射的不可逆,因此我们只能通过近似可逆性来度量以上两种情况的可逆性。我们可以发现,当噪声协方差同时满足[math]\displaystyle{ \Sigma\to 0 }[/math], [math]\displaystyle{ A^\dagger\Sigma(A^\dagger)^T\to 0 }[/math],即正向动力学和逆向动力学的噪声协方差矩阵均接近0的时候,整个动力学可以近似为
[math]\displaystyle{ X_{t+1}=a_0+AX_t+\varepsilon_t\to AX_t+a_0 }[/math]
和
[math]\displaystyle{ X_{t}=A^\dagger X_{t+1}-A^\dagger a_0-A^\dagger\varepsilon_t\to A^\dagger X_t-A^\dagger a_0 }[/math]
此时[math]\displaystyle{ 𝑋_𝑡 }[/math]和[math]\displaystyle{ 𝑋_{t+1} }[/math]之间的的条件概率分布可以写成狄拉克分布
[math]\displaystyle{ p(X_{t+1}|X_t)=\delta(X_{t+1}-AX_t-a_0), }[/math]
逆过程:
[math]\displaystyle{ p(X_t|X_{t+1})=\delta(X_t-A^\dagger X_{t+1}+A^\dagger a_0) }[/math]
使动力系统的可逆性达到最强。因此我们只要寻找一种同时包含[math]\displaystyle{ \Sigma }[/math]和[math]\displaystyle{ A^\dagger\Sigma(A^\dagger)^T }[/math]的指标,我们就可以度量近似可逆性。逆向动力学的协方差矩阵的逆矩阵[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵的逆矩阵[math]\displaystyle{ Σ^{−1} }[/math]共同影响了近似可逆性的大小,可以理解为,正向、逆向的协方差都很小,或非满秩、病态(对应维度虽然取值非0,但相比其他维度相差过于悬殊)的矩阵对模型整体影响较小的时候,系统动力学有更强的可逆性。
TPM矩阵的近似动力学可逆性
纯粹的置换矩阵在所有可能的TPM中非常稀少,所以大多数的TPM并不是严格动力学可逆的。因此,需要一个指标来刻画任意一个TPM接近动力学可逆的程度。考虑P的秩为r,当且仅当r<N(N为矩阵的维数)的时候,P是不可逆的;且P越退化对应着越小的r。然而,非退化(满秩)的矩阵P并不总是动力学可逆的,因为:
- 尽管[math]\displaystyle{ P^{-1} }[/math]存在,[math]\displaystyle{ P^{-1} }[/math]并不一定是满足归一化条件的合法TPM(即矩阵中每个元素都大于等于0,小于等于1,且每一行满足加和为1的条件);
- 如前所述,若P满足动力学可逆性,则P必为置换矩阵。
所有置换矩阵的行向量都是独热向量。这一特性可以被矩阵P的弗罗贝尼乌斯范数(Frobenius norm)刻画。事实上,当且仅当P的行向量是独热向量的时候,矩阵P的弗罗贝尼乌斯范数取最大值。因此,我们可以由矩阵P的秩r和矩阵的弗罗贝尼乌斯范数找到P的近似动力学可逆性与矩阵奇异值之间的联系。
首先,矩阵的秩可以被写作:
[math]\displaystyle{ \begin{aligned} r=\sum_{i=1}^{N}\sigma_{i}^{0} \end{aligned} }[/math]
其中[math]\displaystyle{ \sigma_{i} }[/math]是矩阵P的第i个奇异值,[math]N[/math]是马尔科夫链的状态数。
紧接着,矩阵的弗罗贝尼乌斯范数可以被写作:
[math]\displaystyle{ \begin{aligned} {||P||}_{F}^{2}=\sum_{i=1}^{N}\sigma_{i}^{2} \end{aligned} }[/math]
这也是所有奇异值的平方和。可以看出矩阵的秩和弗罗贝尼乌斯范数都与奇异值相联系。
由于绝大部分马尔科夫链的状态转移矩阵(TPM)都不是置换矩阵,所以我们需要一个指标来刻画一个TPM靠近可逆的置换矩阵程度的指标,这就是近似动力学可逆性。 假设马尔科夫链的TPM为P,奇异值为[math]\displaystyle{ (\sigma_{1}\ge\sigma_{2}\ge...\ge\sigma_{N}\ge0) }[/math],那么矩阵P的[math]\displaystyle{ \alpha }[/math]阶近似动力学可逆性定义为:
[math]\displaystyle{ \begin{aligned} \Gamma_{\alpha}=\sum_{i=1}^{N}\sigma_{i}^{\alpha}\end{aligned} }[/math]
其中[math]\displaystyle{ \alpha\in(0,2) }[/math]是参数。
实际上,当[math]\displaystyle{ \alpha\ge1 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]是P的沙滕范数(Schatten norm);当[math]\displaystyle{ 0\lt \alpha\lt 1 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]是P的准范数(quasinorm)[8][9][10][11]。使用这个定义来刻画近似动力学可逆性是合理的,因为完全动力学可逆性可以通过最大化[math]\displaystyle{ \Gamma_{\alpha} }[/math]来得到。
我们可以证明如下结论:对于任意[math]\displaystyle{ \alpha\in(0,2) }[/math],[math]\displaystyle{ \Gamma_{\alpha} }[/math]的最大值是N,当且仅当P是置换矩阵的时候能取到该最大值。
确定性和简并性
通过调整参数[math]\displaystyle{ \alpha\in(0,2) }[/math],可以使[math]\Gamma_{\alpha}[/math]更好地反映P的确定性或者简并性。当[math]\displaystyle{ \alpha\to0,\Gamma_{\alpha} }[/math]收敛到P的秩,这类似于EI定义中的非简并性项,因为随着P越来越退化,r越来越小。然而,定义不允许[math]\displaystyle{ \alpha }[/math]精确为零,因为r不是P的连续函数,而且最大化秩不等于置换矩阵。同样,当[math]\displaystyle{ \alpha\to2 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]收敛到[math]\displaystyle{ {||P||}_{F}^{2} }[/math],但是定义不允许[math]\displaystyle{ \alpha }[/math]取2,因为[math]\displaystyle{ \Gamma_{\alpha=2} }[/math]的最大化并不意味着P是可逆的。[math]\displaystyle{ {||P||}_{F} }[/math]与EI定义中的确定性项具有可比性,因为当P具有越来越多的独热向量,P中的最大转移概率也会变得更大,意味着动力学变得更加可逆。
在实践中,我们总是取[math]\displaystyle{ \alpha=1 }[/math]来平衡[math]\displaystyle{ \Gamma }[/math]测量确定性和简并性的倾向,[math]\displaystyle{ \Gamma_{\alpha=1} }[/math]被称为核范数[11][12]。为简便,下文中将[math]\displaystyle{ \Gamma_{\alpha=1} }[/math]记作[math]\displaystyle{ \Gamma }[/math]。
归一化
[math]\displaystyle{ \Gamma_{\alpha} }[/math]受矩阵的大小影响,所以我们需要对其进行归一化,得到[math]\displaystyle{ \gamma_{\alpha} }[/math]来刻画与大小无关的近似动力学可逆性,这样可以更方便地在不同大小的马尔科夫链之间进行比较:
[math]\displaystyle{ \begin{aligned} \gamma_{\alpha}=\frac{\Gamma_{\alpha}}{N}\end{aligned} }[/math]
容易证明,[math]\displaystyle{ \gamma_{\alpha} }[/math]总是小于1大于0。
具体例子
在下图中,作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如下图所示。我们可以对比该马氏链的[math]\displaystyle{ EI }[/math]和近似动力学可逆性(图中的[math]\displaystyle{ \Gamma }[/math],即[math]\displaystyle{ \Gamma_{\alpha=1} }[/math])。对比图(a),(b),我们发现对于不同的状态转移矩阵,[math]\displaystyle{ EI }[/math]降低的时候,[math]\displaystyle{ \Gamma }[/math]也同步降低。进一步,图(c)和(d)是对比粗粒化前后的效果,其中图(d)是对图(c)状态转移矩阵的粗粒化(将前三个状态归并为一个宏观态)。由于宏观状态转移矩阵图(d)是一个确定性系统,因此,归一化后的[math]\displaystyle{ EI }[/math],[math]\displaystyle{ eff\equiv EI/\log N }[/math]和归一化后的[math]\Gamma[/math]:[math]\displaystyle{ \gamma\equiv \Gamma/N }[/math]都达到了最大值1。
高斯噪声迭代系统的近似动力学可逆性
TPM矩阵可以通过SVD分解直接得到奇异值谱,在状态空间中基于不同状态对应的奇异值,进行因果涌现的计算,只要状态是离散的,不管是有限的还是可数的,都可以进行因果涌现的计算。但是连续空间上的动力系统的状态数量不可数且是无穷多的,无法用同样的方法削减奇异值数量。因为本质上连续空间之间的势是相同的,无穷集可以与其真子集形成一一映射,因此无论怎么删减状态数量,剩余的状态数量依然是无穷多的,这就如同一条直线上的点其实和平面上一样多类似。因此,对于高斯噪声迭代系统,我们需要用新的方法进行因果涌现的判断和定量化,即从状态空间的奇异值变为欧氏空间的奇异值。TPM矩阵本质上是离散条件概率[math]\displaystyle{ p(x_{t+1}|x_t) }[/math]构成的矩阵,矩阵的第i行第j列代表[math]\displaystyle{ x_t=i }[/math]的条件下[math]\displaystyle{ x_{t+1}=j }[/math]的概率,因此从条件概率的角度类比到连续系统,高斯迭代系统的概率转移矩阵为:
[math]\displaystyle{ p(x_{t+1}|x_t)=\mathcal{N}(Ax_{t}+a_0,\Sigma)\equiv \frac{1}{(2\pi)^\frac{n}{2}\det(\Sigma)^\frac{1}{2}}\exp\left\{-\frac{1}{2}(x_{t+1}-Ax_t-a_0)^T\Sigma^{-1}(x_{t+1}-Ax_t-a_0)\right\}, }[/math]
在离散情况下,由于[math]\displaystyle{ 𝑃 }[/math]的奇异值的平方为矩阵[math]\displaystyle{ 𝑃⋅𝑃^𝑇 }[/math]的特征值,故计算连续情况下的[math]\displaystyle{ 𝑃⋅𝑃^𝑇 }[/math]对应为函数:
[math]\displaystyle{ K(\textbf{x},\textbf{y})=\int_{-\infty}^\infty p(\textbf{z}|\textbf{x})p(\textbf{z}|\textbf{y})d\textbf{z}=(2\pi)^{-\frac{n}{2}}\det(2\Sigma)^{-\frac{1}{2}}\exp\left\{-\frac{1}{4}(\textbf{x}-\textbf{y})^T(A^T\Sigma^{-1}A)(\textbf{x}-\textbf{y})\right\}\equiv\mathcal{K}(\textbf{x}-\textbf{y}). }[/math]
可以看到,由于[math]K(\textbf{x},\textbf{y})[/math]仅仅是[math]\textbf{x}-\textbf{y}[/math]的函数,因此,我们可以将[math]\textbf{x}-\textbf{y}[/math]命名为一个新的变量[math]\textbf{z}[/math],新的函数[math]\mathcal{K}[/math]即为一个关于[math]\textbf{z}[/math]的一元函数。
因此,[math]\displaystyle{ 𝑝(𝑦|𝑥) }[/math]的奇异值平方就是算子[math]\displaystyle{ \textbf{Κ} }[/math]的特征值。假设[math]\displaystyle{ \textbf{Κ} }[/math]的特征值为[math]\displaystyle{ \zeta^2 }[/math],特征函数为:[math]\displaystyle{ \psi(𝑧) }[/math], 则根据特征值和特征函数的定义有:
[math]\displaystyle{ (\textbf{K}\psi)(\textbf{x})=\int_{-\infty}^\infty K(\textbf{x},\textbf{y})\psi(\textbf{y})d\textbf{y}=\zeta^2 \psi(\textbf{x}). }[/math]
基于其特殊结构,可对其进行傅里叶变换,得到:
[math]\displaystyle{ \hat{\mathcal{K}}(\omega)\hat{\psi}(\omega)=\mathcal{F}\left\{\mathcal{K}(\mathbf{y})\right\}\mathcal{F}\left\{\psi(\mathbf{y})\right\}=\zeta^2\hat{\psi}(\omega). }[/math]
所以最终我们可以在新的频率空间中,找到一种类似于奇异值谱的函数,我们称为高斯分布的奇异函数,[math]\alpha[/math]乘方后得到:
[math]\displaystyle{ \zeta^\alpha(\omega)=\{{\rm det}(\Sigma)^{\frac{1}{2}}{\rm pdet}(A^T\Sigma^{-1} A)^{\frac{1}{2}}\}^{-\frac{\alpha}{2}}\exp\left\{-\frac{\alpha}{2}\left(\omega^T(A^T\Sigma^{-1}A)^{\dagger}\omega\right)\right\} }[/math]
这里,[math]\displaystyle{ {\rm pdet} }[/math]代表伪行列式,[math]\displaystyle{ † }[/math]代表Moore-Penrose伪逆运算。由此,我们可以计算其近似动力学可逆性指标[math]\displaystyle{ Γ_𝛼 }[/math]:
[math]\displaystyle{ \Gamma_\alpha=\left(\frac{2\pi}{\alpha}\right)^\frac{n}{2}{\rm pdet}(A^T\Sigma^{-1}A)^{\frac{1}{2}-\frac{\alpha}{4}}{\rm det}(\Sigma^{-1})^\frac{\alpha}{4} }[/math]
可见逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]共同影响了近似可逆性的大小,可以理解为,必须两个协方差都很小,非满秩或病态的维度影响较小的时候,系统动力学才有更强的可逆性。
维度平均
进一步,可以可逆性指标取对数并去掉常数项,得到维度平均的指标
[math]\displaystyle{ \hat\gamma_\alpha=\gamma_\alpha-\frac{1}{2}\ln\left(\frac{2\pi}{\alpha}\right)=\frac{1}{n}\ln\Gamma_\alpha-\frac{1}{2}\ln\left(\frac{2\pi}{\alpha}\right)=\frac{1}{n}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r}\ln s_i+\frac{\alpha}{4n}\sum_{i=1}^{n}\ln\kappa_i }[/math]
这里,[math]\displaystyle{ 𝑠_𝑖 }[/math]为矩阵[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]的第[math]\displaystyle{ i }[/math]个奇异值,[math]\displaystyle{ 𝜅_𝑖 }[/math]为矩阵[math]\displaystyle{ Σ^{−1} }[/math]的第i个奇异值。因此,我们只需要分析这两个奇异值构成的联合谱,即可定量刻画系统的因果涌现特性了。也就是说,我们把原转移概率矩阵的奇异值分解转变为了对[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和[math]\displaystyle{ Σ^{−1} }[/math]这两个矩阵的奇异值分解问题。其中,[math]\displaystyle{ Σ^{−1} }[/math]为正向动力学,即[math]\displaystyle{ p(x_{t+1}|x_t)=\mathcal{N}(x_t,\Sigma) }[/math]的协方差矩阵之逆,而[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]则是[math]\displaystyle{ p(x_{t+1}|x_t) }[/math]的逆向动力学的协方差矩阵。
确定性和简并性
在离散状态情况下,我们知道,通过调整参数[math]\displaystyle{ \alpha\in(0,2] }[/math],我们可以使[math]\Gamma_{\alpha}[/math]更好地反映P的确定性或者简并性对最终可逆性的影响。类似的,在连续变量情形,当[math]\displaystyle{ \alpha\to0,\Gamma_{\alpha} }[/math]收敛到
[math]\displaystyle{ \Gamma_{\alpha\to 0}\to\left(\frac{2\pi}{\alpha}\right)_{\alpha\to 0}^\frac{n}{2}{\rm pdet}(A^T\Sigma^{-1}A)^{\frac{1}{2}}, }[/math]
此时[math]\displaystyle{ \Gamma_{\alpha\to 0} }[/math]只由逆向动力学的协方差矩阵决定,而逆向动力学的协方差直接影响系统的简并性。然而,定义不允许[math]\displaystyle{ \alpha }[/math]精确为零,这样会导致指标趋于无穷。
同样,当[math]\displaystyle{ \alpha=2 }[/math]时,[math]\displaystyle{ \Gamma_{\alpha} }[/math]收敛到
[math]\displaystyle{ \Gamma_2=\left(\pi\right)^\frac{n}{2}{\rm det}(\Sigma^{-1})^\frac{1}{2}, }[/math]
协方差矩阵的逆的行列式越大,代表方差越大,也就是动力学的不确定性越强,这也可以导致系统的动力学更加可逆。因此,当[math]\alpha[/math]从0到2连续过度时,[math]\Gamma_{\alpha}[/math]就会从由纯粹刻画简并性指标,逐渐过渡到刻画不确定性的指标。 在实践中,我们总是取[math]\displaystyle{ \alpha=1 }[/math]来平衡[math]\displaystyle{ \Gamma }[/math]测量确定性和简并性的综合影响。
有效信息(EI)与近似动力学可逆性
离散状态情形
近似可逆性和有效信息存在着密切的关系,这可以通过下面的定理和数值模拟看出。
首先,近似动力学可逆性[math]\Gamma_{\alpha}[/math]与EI有着相同的最大值
定理2:对于任意 TPM P 和 [math]\displaystyle{ \alpha\in(0,2) }[/math],[math]\displaystyle{ \Gamma_{\alpha} }[/math]的对数和EI都有相同的最小值0和一个共同的极小值点(当[math]\displaystyle{ P=\frac{1}{N} \mathbb{1}_{N\times{N}} }[/math]时取到),其中[math]\displaystyle{ \mathbb{1} }[/math]是全1矩阵。它们还有相同的最大值[math]\displaystyle{ \log{N} }[/math],最大值点对应于P是一个置换矩阵。
因此当P是可逆的(置换矩阵)时,[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]和EI可以达到最大值[math]\displaystyle{ \log{N} }[/math]。当[math]\displaystyle{ P_{i}=\frac{\mathbb{1}}{N},\forall{i}\in[1,N] }[/math],它们也可以达到最小值0。然而,我们可以证明[math]\displaystyle{ \frac{\mathbb{1}}{N} }[/math]并不是EI的唯一最小点,对于任何满足[math]\displaystyle{ P_{i}=P_{j},\forall{i}\in{[1,N]} }[/math]的TPM都能使EI=0。其次EI的上限和下限都是[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的线性项。
其次,[math]\log\Gamma_{\alpha}[/math]构成了EI的上下界。
定理3:对于任何TPM P,其有效信息EI的上限为[math]\displaystyle{ \frac{2}{\alpha}\log{\Gamma_{\alpha}} }[/math],下限为[math]\displaystyle{ \log{\Gamma_{\alpha}}-\log{N} }[/math].
因此,有如下不等式:
[math]\displaystyle{ \begin{aligned} \log{\Gamma_{\alpha}}-\log{N}\le{EI}\le\frac{2}{\alpha}\log{\Gamma_{\alpha}} \end{aligned} }[/math]
实际上,EI有一个更严格的上限,[math]\displaystyle{ EI\le\log{\Gamma_{\alpha}} }[/math],这个不等式虽然已经在多个系统中观察到,但目前尚不能从理论上证明它的成立。
我们发现在许多例子中,EI和[math]\displaystyle{ \log\Gamma_{\alpha} }[/math]具有近似线性关系,因此,基于可逆性的因果涌现理论猜想存在如下近似关系:
[math]\displaystyle{ \begin{aligned} EI\sim\log\Gamma_{\alpha}. \end{aligned} }[/math]
在离散状态空间情况下,该近似关系虽然不能从理论上证明,但却可以通过多个数值例子加以证明。
与EI的相似性
根据前文,EI的上界和下界分别是[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的线性项。由此还可以推测两者具有近似关系:[math]\displaystyle{ EI\sim\log{\Gamma_{\alpha}} }[/math]。下面通过数值模拟说明这一点。具体的做法是随机生成一些随机的TPM,计算它们的EI和[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math],并绘制散点图。下面,我们将展示三种不同的随机TPM的生成方式下的结论。
如上图所示,在由三种不同方法生成的各种归一化的TPM 上比较了[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]和 EI的关系,这三种关系包括:1)软化置换矩阵(图a);2)软化退化矩阵(图b);3)完全随机矩阵(图c)。
图(a)、(b)和(c)表明,在这些例子中都观察到了正相关性,并且在N ≫ 1 时,[math]\displaystyle{ EI\sim\log{\Gamma_{\alpha}}. }[/math]的近似关系得到了证实。在(a) 和 (b) 中可以明显观察到这种关系,但在(b) 中,由于覆盖了有限的[math]\displaystyle{ \Gamma }[/math]值区域,这种关系退化为近似线性关系。
图(a)和(b)中用红色虚线表示了 EI 的上下限。不过,在图(c)中,由于所有点都集中在一个小区域内,因此看不到理论边界线。根据经验,图中灰色断线所示的[math]\displaystyle{ \log{\Gamma_{\alpha}} }[/math]的上限更为严格。因此可以推测 [math]\displaystyle{ EI\le\log{\Gamma_{\alpha}} }[/math]这一新关系是成立的,但其严密性有待证明。
以下是这三种生成TPM方式的具体生成步骤:
软化置换矩阵:
1)随机生成一个N阶置换矩阵P;
2)对于P中的每个行向量[math]\displaystyle{ P_{i} }[/math],假设1元素的位置是[math]\displaystyle{ j_{i} }[/math],我们将[math]\displaystyle{ P_{i} }[/math]的所有条目填入位于[math]\displaystyle{ j_{i} }[/math]处的高斯分布中心的概率,即[math]\displaystyle{ P'_{i,j} = \frac{1}{\sqrt{2\pi}\sigma} \exp\left( -\frac{(j - j_i)^2}{\sigma^2} \right) }[/math],其中,[math]\displaystyle{ \sigma }[/math]是软化程度的自由参数,如果[math]\displaystyle{ \sigma\rightarrow\infty }[/math]则[math]\displaystyle{ P_{i} }[/math]变为了一个全部由1/N构成的向量,如果[math]\displaystyle{ \sigma\rightarrow 0 }[/math]则[math]\displaystyle{ P_{i} }[/math]退化为独热向量;
3) 将[math]\displaystyle{ \sum_{j=1}^{N} P'_{ij} = 1 }[/math]除以新的行向量,使其归一化,这样修改后的矩阵[math]\displaystyle{ P' }[/math]也是一个转移概率矩阵。
软化退化矩阵:
生成方式与软化置换矩阵非常相似,但原始矩阵P不是置换矩阵,而是退化矩阵。退化意味着有一些行向量是相同的,相同行向量的数量用N - r表示,它是受控变量,其中r是P的秩。通过调整N-r,我们可以控制TPM的退化程度。
完全随机矩阵:
1) 从[0, 1]上的均匀分布中抽取一个行随机向量;
2) 对该行向量进行归一化处理,使生成的矩阵是一个TPM。
进一步,文献[6]还在大小为N=2 的最简单参数化TPM中得到了EI和[math]\displaystyle{ \Gamma }[/math]的解析解,并展示了EI和[math]\displaystyle{ \Gamma }[/math]与参数p和q的关系。其中p和q用于生成最简单的[math]\displaystyle{ 2 \times 2 }[/math]马尔科夫矩阵[math]\displaystyle{ P=\begin{pmatrix}p& 1-p\\1-q & q\end{pmatrix} }[/math],下图(a)表示[math]\displaystyle{ \Gamma }[/math]随p和q的变化,图(b)表示EI随p和q 的变化。(a)和(b)之间的差异显而易见:1)当[math]\displaystyle{ p\approx 1-q }[/math]时,[math]\displaystyle{ \Gamma }[/math]有一个最小值的峰,但EI没有;2)观察到EI ≈ 0时的区域更宽,而[math]\displaystyle{ \Gamma\approx 1 }[/math]时的区域要小得多;3)观察到[math]\displaystyle{ \Gamma }[/math]有一个从0到最大值N=2的渐进过渡,但EI没有。
因此,我们得出结论,EI和[math]\displaystyle{ \Gamma }[/math]在各种TPM上高度相关。
与EI的不同
首先,EI 通过KL散度来量化每个行向量与P的平均行向量之间的差异,衡量的是行向量之间的相似性。相反,[math]\displaystyle{ \Gamma_{\alpha} }[/math]评估的是动力学可逆性,特别是当[math]\displaystyle{ \alpha }[/math]接近 0 时,这与行向量之间的线性相互依赖性相关。虽然行向量的线性相互依赖性表明它们的相似性——这意味着两个相同的行向量是线性相关的,但反之则不一定成立。因此,[math]\displaystyle{ \Gamma_{\alpha} }[/math]不仅捕获了行向量之间的相似性,而且还捕获了P与动力学可逆矩阵的接近度。相比之下,EI无法完成这个任务。
可以通过以下数值实验来验证这一点:可以通过将线性相关行向量与线性独立行向量混合来创建TPM,其中独立向量的数量或等级是受控参数。首先,生成r个独立的独热向量,然后软化这些行向量,软化程度由[math]\displaystyle{ \sigma }[/math]控制。随后,通过将这些软化的独热向量与随机选择的线性系数线性组合来创建额外的行向量。然后量化[math]\displaystyle{ \Gamma }[/math]和 EI 之间的差异,结果如下图所示。
很明显,对于较小的r值,随着[math]\displaystyle{ \sigma }[/math]的增加,[math]\displaystyle{ \log{\Gamma} }[/math]和 EI 之间的差异会减小,因为 P 的线性依赖性随着向量变得更加明显而增强。这强调了线性相关性并不等于行向量之间的相似性。然而,随着独立行向量数量的增加,如果[math]\displaystyle{ \sigma }[/math]保持很小,P会收敛到置换矩阵。因此,EI 和[math]\displaystyle{ \log{\Gamma} }[/math]都达到了相同的最大值。这解释了为什么当r很大时,差异曲线会出现轻微的颠簸。
其次,即使在所有行向量相同的情况下,EI 和[math]\displaystyle{ \Gamma_{\alpha} }[/math]之间也存在显著的区别,导致 EI= 0 而[math]\displaystyle{ \Gamma_{\alpha}= ||\overline{P}||^{\alpha}\cdot N^{\alpha /2} }[/math],而这是一个可以随[math]\displaystyle{ ||\overline{P}|| }[/math]变化的量。这种差异意味着,与 EI 不同,[math]\displaystyle{ \Gamma_{\alpha} }[/math]可以提供有关行向量的更全面的见解,超越其与平均行向量的相似性。
连续变量情形
和TPM有所不同,高斯噪声迭代系统下,动力学近似可逆性和维度平均有效信息的关系,可以直接求出近似的解析解,这是因为它们都可以用动力学参数矩阵[math]\displaystyle{ A }[/math]和协方差矩阵[math]\displaystyle{ \Sigma }[/math]的线性函数表示。这主要是由于此时概率空间是连续空间,无论删减多少个连续的区间,只要没有离散化,状态数量都是无穷,因此我们要从状态空间的研究转化为对欧氏空间的研究,因为欧氏空间有面积、体积的概念,对维度的约减会导致高维立方体的体积减小,使动力学的因果效应强度发生改变。
有效信息与近似可逆性
当逆向动力学[math]\displaystyle{ p(x_t|x_{t+1})=\mathcal{N}(A^\dagger x_{t+1}-A^\dagger a_0,A^\dagger\Sigma(A^\dagger)^T) }[/math]接近一个标准化的正态分布[math]\displaystyle{ A^\dagger\Sigma(A^\dagger)^T\approx I_n }[/math]的时候, [math]\displaystyle{ \Gamma_\alpha }[/math]和维度平均的有效信息满足关系为:
[math]\displaystyle{ \ln\Gamma_\alpha\simeq n(1-\frac{\alpha}{4})\mathcal{J}+C. }[/math]
其中[math]\displaystyle{ \ln\Gamma_\alpha }[/math]是对近似可逆性取对数后得到的可逆信息,[math]\displaystyle{ C=\frac{n}{2}\ln\left(\frac{2\pi}{\alpha}\right) -n(1-\frac{\alpha}{4})\ln(\frac{L}{\sqrt{2\pi e}}) }[/math]是与[math]\displaystyle{ A }[/math]和[math]\displaystyle{ \Sigma }[/math]无关的常数项。当[math]\displaystyle{ p(x_t|x_{t+1})=\mathcal{N}(A^\dagger x_{t+1}-A^\dagger a_0,A^\dagger\Sigma(A^\dagger)^T) }[/math]是一个标准化的正态分布, 且[math]\displaystyle{ A\in\mathcal{R}^{m\times n} }[/math]是可逆矩阵的时候,等号成立。
离散TPM基于SVD(动力学可逆性)的因果涌现
清晰因果涌现
对于具有TPM P的给定马尔可夫链[math]\displaystyle{ \chi }[/math],如果[math]\displaystyle{ r≡rank(P)\lt N }[/math],则该系统中会出现明显的因果涌现。且因果涌现的程度为:
[math]\displaystyle{ \begin{aligned} \Delta\Gamma_{\alpha}=\Gamma_{\alpha}\cdot(\frac{1}{r}-\frac{1}{N}) \end{aligned} }[/math]
模糊因果涌现
对于具有任意的马尔可夫链[math]\displaystyle{ \chi }[/math],其概率转移矩阵(TPM)为P,假设其奇异值为[math]\displaystyle{ (\sigma_{1}\ge\sigma_{2}\ge...\ge\sigma_{N}\ge0) }[/math]。对于给定实值[math]\displaystyle{ \epsilon\in[0,\sigma_{1}] }[/math],如果存在整数[math]\displaystyle{ i\in[1, N) }[/math],使得[math]\displaystyle{ \sigma_{i}\gt \epsilon }[/math],则系统中出现了模糊因果涌现,其模糊程度为[math]\displaystyle{ \epsilon }[/math]。而因果涌现的程度为:
[math]\displaystyle{ \begin{aligned} \Delta\Gamma_{\alpha}(\epsilon)=\frac{\sum_{i=1}^{r_{\epsilon}}\sigma_{i}^{\alpha}}{r_{\epsilon}}-\frac{\sum_{i=1}^{N}\sigma_{i}^{\alpha}}{N}, \end{aligned} }[/math]
其中[math]\displaystyle{ r_{\epsilon}=max\{ i| \sigma_{i} \gt \epsilon\} }[/math]
这些定义与任何粗粒化方法无关,它代表了马尔可夫动力学的内在客观属性。因此,清晰和模糊因果涌现的程度都可以客观地量化。当[math]\displaystyle{ \epsilon=0 }[/math]时,清晰因果涌现是模糊因果涌现的特例,特别是当奇异值可以分析求解时,它具有理论价值。此外,对因果涌现发生的判断与[math]\displaystyle{ \alpha }[/math]无关,因为它只与秩有关。因此,清晰因果涌现的概念仅由P决定,是无参数的。在实际应用中,必须给出阈值[math]\displaystyle{ \epsilon }[/math],因为奇异值可能无限趋近于0,但P是满秩的。可以根据奇异值频谱中的明显截止点来选择[math]\displaystyle{ \epsilon }[/math]。若[math]\displaystyle{ \epsilon }[/math]非常小(比如[math]\displaystyle{ \epsilon\lt {10}^{-10} }[/math]),我们也可以说因果涌现大致发生。对于任意[math]\displaystyle{ \epsilon\ge{0},\Delta\Gamma_{\alpha}(\epsilon)\in[0,N-1] }[/math],只有当[math]\displaystyle{ \Delta\Gamma_{\alpha}(\epsilon)\gt 0 }[/math]时,才会出现因果涌现。
这里我们不难看出,因果涌现现象的本质在于概率转移矩阵P下存在冗余的信息通路,这些通路是不可逆的,由对应于零或接近零奇异值的奇异向量表示。因果涌现的量化本质上,是通过测量当这些冗余信道被潜在的最佳粗粒度化策略去除时平均可逆性或信息传输效率的潜在最优结果来实现的。
TPM矩阵的粗粒化方法
虽然无需粗粒化也能定义和量化清晰或模糊因果涌现,但在一些场合,我们仍然需要对原始系统进行更简单的粗粒化描述,以便与通过最大化EI得出的结果进行比较。因此,文章[6]提供了一种基于奇异值分解的粗粒化方法,以获得宏观层面的简化TPM。其基本思想是将P中的行向量 [math]\displaystyle{ P_{i},\forall i \in [1,N] }[/math]投影到[math]\displaystyle{ P }[/math]的几个较大奇异值对应的奇异向量所张成的子空间上,从而保留P的主要信息,并保持[math]\displaystyle{ \Gamma }[/math]不变。
该方法的基本思路是将P中的所有行向量[math]\displaystyle{ P_{i} }[/math]视为维数为N的数据向量,然后首先对这些行向量进行PCA降维,其次将其聚类为r个簇,其中r是根据奇异值谱的阈值[math]\displaystyle{ \epsilon }[/math]截取的。有了这个聚类方案,我们还需要指定TPM的简化过程。文章[6]给出了一种基于稳态分布和对应的流矩阵的简化TPM的方案。具体地,就是将P对应的稳态流矩阵F按照聚类方案进行状态归并,并将被归并为一类的列上的流量进行相加,从而得到一个简化的[math]r\times r[/math]维度的流矩阵[math]F'[/math],然后将其归一化得到粗粒化后的TPM:[math]P'[/math]。这样做的好处是为了保证状态归并过程中的流量守恒(由于马尔可夫链可以看作是一种随机游走的粒子流,因此这种流应该在粗粒化的过程中保持流量守恒)。
1) 对P进行SVD分解(假设P是不可归约的,且具有周期性,从而存在平稳分布):
[math]\displaystyle{ P=U\cdot \Sigma \cdot V^{T}, }[/math]
其中,[math]\displaystyle{ U }[/math]和[math]\displaystyle{ V }[/math]是两个尺寸为N×N的正交归一化矩阵,[math]\displaystyle{ \Sigma = diag(\sigma_{1},\sigma_{2},...,\sigma_{N}) }[/math] 是一个对角矩阵,包含所有有序奇异值。
2)选择一个[math]\displaystyle{ \epsilon }[/math]作为阈值来截断奇异值谱,并得到[math]\displaystyle{ r_{\epsilon} }[/math]作为保留状态的个数;
3)通过计算[math]\displaystyle{ \tilde{P}\equiv P\cdot V_{N\times r_{\epsilon}} }[/math]对P中的所有[math]\displaystyle{ P_{i} }[/math]进行降维,其中[math]\displaystyle{ V_{N\times r_{\epsilon}} }[/math]由[math]\displaystyle{ P\cdot P^{T} }[/math]的前[math]\displaystyle{ r_{\epsilon} }[/math]个特征向量构成;
4) 通过 K-means 算法将[math]\displaystyle{ \tilde{P} }[/math]中的所有行向量聚类为r组,得到投影矩阵[math]\displaystyle{ \Phi }[/math],其定义为:
[math]\displaystyle{ \Phi_{ij} =\begin{cases} 1, & \text{如果}\tilde{P_{i}}\text{属于第r组}\\ 0, & \text{其他情况} \end{cases} }[/math]
对[math]\displaystyle{ \forall i,j \in [1,N] }[/math]都成立。
5) 利用[math]\displaystyle{ \Phi }[/math]和P得到新的TPM。
为了说明如何获得简化的TPM,首先定义一个矩阵,称为稳态流矩阵,如下所示:
[math]\displaystyle{ F_{ij} \equiv \mu_i \cdot P_{ij}, \, \forall i,j \in [1, N], }[/math]
其中,[math]\displaystyle{ \mu }[/math]是P的稳态分布,即满足[math]\displaystyle{ P\cdot\mu=\mu }[/math]。
其次,我们将根据 [math]\displaystyle{ \Phi }[/math]和[math]\displaystyle{ F }[/math]得到粗粒化后的稳态流矩阵:
[math]\displaystyle{ F' = \Phi^T \cdot F \cdot \Phi, }[/math]
其中,F'是粗粒化后的平稳流矩阵。在归并的过程中,保持所有矩阵上的流量总量是不变的。
最后,粗粒化后的TPM可直接通过归一化每一行得到:
[math]\displaystyle{ P'_i = F'_i / \sum_{j=1}^{N} (F'_i)_j, \, \forall i \in [1, N]. }[/math]
将N个[math]P'_i[/math]拼在一起就能得到最终的TPM。
可以证明,这样的粗粒化方案可以保证让粗粒化操作和时间演化操作具有可交换的性质(证明可以参考[6])。
与基于最大化有效信息的因果涌现的关系
上述有关因果涌现的定义以及相应的基于动力学可逆性的合理性来源于这套SVD方案定义的因果涌现与最大化有效信息的因果涌现定义的密切关系,我们可以证明,要想获得最大化有效信息的粗粒化策略也近似等价于是向最大奇异值对应的奇异向量方向投影的策略。在Erik Hoel因果涌现理论的框架内,给定马尔可夫动力学系统的因果涌现的大小依赖于粗粒化策略的选择,可以通过宏观动力学的EI最大化寻找最优的粗粒化策略。由于对于离散的马尔可夫链来说,粗粒化策略往往都是比较严格的0或1构成的向量,因此并不能简单地根据奇异向量来直接投影,但是如果粗粒化策略尽可能地与最大的几个奇异向量平行,那么就可以让粗粒化后动力学的EI尽可能更大,因此最大化EI的必要条件近似可以认为就是往最大奇异值对应的奇异向量空间做投影。下面给出较为严格的推导:
对于离散的马尔科夫概率转移矩阵,我们可以使用一个[math]\displaystyle{ N\times r }[/math]聚类矩阵[math]\displaystyle{ \Phi=(\Phi_1^T,\cdots,\Phi_r^T) }[/math]定义粗粒化策略,其中向量[math]\displaystyle{ \Phi_i\in R^N }[/math]表示第i个聚类中包含的元素,当第j个微观态属于第i个宏观态,则[math]\displaystyle{ \Phi_{i,j}=1 }[/math],否则为0。
由于每个微观状态对应于唯一的宏观状态,因此所有向量[math]\displaystyle{ \Phi_i }[/math],彼此之间都是相互正交的。因此,粗粒化后的宏观动力学的转移概率矩阵(TPM)可以表示为:
[math]\displaystyle{ P^{'}=D\Phi^T P \Phi }[/math]
其中[math]P^{'}[/math]是粗粒化之后的TPM,[math]\displaystyle{ D=diag(1/\sum_{j=1}^N \Phi_{1,j},\cdots,1/\sum_{j=1}^N \Phi_{r,j}) }[/math]是归一化矩阵,可以使得[math]\displaystyle{ P^{'} }[/math]依然保持行规一化。[math]\Phi[/math]这种粗粒化方法通过将[math]\displaystyle{ P }[/math]中不同列的概率相加并对所有行进行平均,将微观态压缩为宏观态。
不过,这种粗粒化策略得到的表达式不是对称的形式,因此我们可以稍作改变,将[math]\Phi[/math]的每一行除以其范数来进行归一化,即设新的粗粒化向量可写为:[math]\displaystyle{ \phi_i=\Phi_i/|\Phi_i| }[/math],这里定义[math]\displaystyle{ \phi=(\phi_1^T,\cdots,\phi_r^T) }[/math],于是,我们便能够将粗粒化后的TPM近似写为一种对称的乘积形式:
[math]\displaystyle{ P^{'}\approx \phi^T P \phi }[/math]
进一步,我们可以对P矩阵进行SVD分解:
[math]\displaystyle{ P=\sum_{i=1}^{N}\sigma_i U_i\otimes V_i }[/math]
从而得到:
[math]\displaystyle{ PP^T=\sum_{i=1}^{N}\sigma_i U_i\otimes U_i^T }[/math]
将该式代入[math]\displaystyle{ P^{'}\approx \phi^T P \phi }[/math],得到:
[math]\displaystyle{ P^{'}(P^{'})^T\approx\sum_{i=1}^{N}\sigma_i (\phi^TU_i)\otimes (U_i^T\phi) }[/math]
进一步,我们可以根据[math]\displaystyle{ \Gamma }[/math]的定义和它的下界,得到:
[math]\displaystyle{ \Gamma_\alpha^{1/\alpha}\geq tr(P^{'}(P^{'})^T)\approx\sum_{i=1}^{N}\sigma_i (\phi^TU_i)\otimes (U_i^T\phi)\geq\sum_{i=1}^{r}\sigma_i (\phi^TU_i)\otimes (U_i^T\phi)=\sum_{i=1}^{r}\sum_{j=1}^{r}\sigma_i^2 (\phi^T_jU_i)^2 }[/math]
因此,[math]\displaystyle{ \phi=(\phi_1^T,\cdots,\phi_r^T) }[/math]中至少有一个向[math]\displaystyle{ \phi_j }[/math]与奇异向量[math]\displaystyle{ U_i }[/math]平行,使得对于所有i≤r,[math]\displaystyle{ ||\phi_j^T U_i|| }[/math]达到最大化,相当于为[math]\displaystyle{ U_i }[/math]的方向分配更多的概率质量。
故而,通过向使得粗粒化向量与[math]U_i[/math]近似平行,我们可以最大化[math]\displaystyle{ Γ_\alpha(P^{'}) }[/math]。因为[math]\displaystyle{ \log(Γ_\alpha)\sim EI }[/math],所以在最大化[math]\displaystyle{ Γ_\alpha }[/math]的同时,也就最大化了EI。因此,通过选择粗粒化策略,为奇异值最大的奇异向量方向分配更多的概率质量,我们便可以近似最大化EI。
在实际应用中,粗粒化策略Φ的约束(例如,宏观动力学TPM的分组和归一化)会阻止[math]\displaystyle{ \phi_j }[/math]与奇异向量完美对齐。因此,基于SVD的粗粒化策略只是最大化EI的近似必要条件。
具体案例
使用基于可逆性和SVD分解的因果涌现理论允许我们直接量化一个实际系统的因果涌现现象。下面分别针对布尔网络和复杂网络进行说明。
布尔网络
下面基于Hoel等人的论文[13][14]中提出的几种布尔网络马尔可夫动力学来测试清晰和模糊因果涌现的定义。
下图(a)-(i)分别显示了从具有相同节点机制的相同布尔网络模型生成的用于清晰因果涌现和模糊因果涌现的TPM的两个示例。图(c) 表示通过粗粒化(a)得到的新布尔网络,粗粒化策略是从 (f) 和 (i) 的 TPM 中提取的。图(d)中的TPM直接源自图(a)和(b)中的布尔网络及其节点机制。它们的奇异值谱分别如图(e)和(h)所示。(d)中的例子只有4个非零奇异值,奇异值谱如图(e)所示,因此,出现明显的因果涌现,且因果涌现的程度为[math]\displaystyle{ \Delta\Gamma=0.75 }[/math]。 这一对因果涌现的判断与参考文献[13]相同。(f) 和 (i) 分别是对 (d) 和 (g) 中的原始 TPM 应用粗粒化方法后缩减的TPM和投影矩阵。
图(g)中的TPM可以显示出模糊的因果涌现,这是在(d)中的TPM上添加强度为(std = 0.03)的随机高斯噪声后得到的。因此,奇异频谱如图(h)所示。我们选择[math]\displaystyle{ \epsilon=0.2 }[/math]作为阈值,这样就只剩下4个大的奇异值。因果涌现程度为[math]\displaystyle{ \Delta\Gamma(0.2)=0.69 }[/math]。[math]\displaystyle{ \epsilon }[/math]值是根据图(h)中的奇异值频谱选择的,在图(h)中可以观察到指数为3和[math]\displaystyle{ \epsilon=0.2 }[/math]时有一个明显的分界点。
下图显示了另一个更复杂的布尔网络模型的明显因果涌现例子,该模型来自参考文献[13],其中具有相同节点机制的6个节点可归类为3个超级节点,以显示因果涌现。(a)为6节点12条边的布尔网络模型。 (b)是根据(e)中的TPM得出的粗粒化后的布尔网络模型。原始布尔网络模型的相应TPM如图(c)所示。奇异值谱如图(d)所示,其中有8个非零值。这个清晰因果涌现的程度为[math]\displaystyle{ \Delta\Gamma=2.23 }[/math]。对因果涌现的判断与[13]相同。(e) 是对(c)的粗粒化。(f) 是根据基于 SVD 的粗粒化方法得到的从微观状态到宏观状态的投影矩阵。
复杂网络
对因果涌现的量化可应用于复杂网络,如下图所示。图(a)-(c)显示了由随机块模型(SBM)生成的具有三组参数(内部连接概率)的复杂网络的模糊因果涌现例子。TPM是通过对网络的邻接矩阵按每个节点的度进行归一化得到的。图(a)显示了一个有 100 个节点和 5 个区块(社区)的示例网络,图(b)显示了其奇异值谱,同图中还显示了另外两个由SBM生成的网络谱,它们的大小和块数相同,但参数不同。图(c) 是利用基于SVD的粗粒化方法进行缩减后的 (a) 网络。图(b)中,在与区块数相同的横坐标上可以观察到一个明显的分界点[math]\displaystyle{ (\epsilon=0.3,r_{\epsilon}=5) }[/math]。可以确定,在这个网络模型中出现了模糊的因果涌现,程度为[math]\displaystyle{ \Delta\Gamma(0.3)=0.56 }[/math]。
元胞自动机
如下图所示,关于清晰因果涌现的定义可应用于元胞自动机,以发现其局部涌现结构。在这个例子里刻画了元胞自动机(编号40的基本一维元胞自动机)局部TPM的清晰因果涌现。(a)是第40号元胞自动机的演化(规则是:000 → 0, 001 → 0, 010 → 1, 011 → 0, 100 → 1, 101 → 0, 110 → 0, 111 → 0)。局部TPM 由包括每个单元及其两个相邻单元的局部窗口获得。图(b) 显示了这些局部 TPM 的奇异值的可能频谱,在这些频谱中可能出现也可能不出现清晰因果涌现。图(c)用红点标记显示了所有单元和时间步长的清晰因果涌现分布([math]\displaystyle{ \Delta\Gamma }[/math])。
高斯噪声迭代系统基于SVD的因果涌现
因果涌现的量化指标
TPM矩阵基于可逆性的因果涌现,与其奇异值相关。同样,在规定[math]\displaystyle{ \epsilon\geq 0 }[/math]之后,我们可以筛选两个协方差矩阵的奇异值来计算因果涌现,即
[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)\equiv\hat{\gamma}_\alpha(\epsilon)-\hat\gamma_\alpha=\frac{1}{r_\epsilon}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r_\epsilon}\ln s_i+\frac{\alpha}{4r_\epsilon}\sum_{i=1}^{r_\epsilon}\ln\kappa_i-\frac{1}{n}(\frac{1}{2}-\frac{\alpha}{4})\sum_{i=1}^{r}\ln s_i-\frac{\alpha}{4n}\sum_{i=1}^{n}\ln\kappa_i. }[/math]
其中[math]\displaystyle{ r_\epsilon\equiv\min\{r_\epsilon(A^T\Sigma^{-1} A),r_\epsilon(\Sigma^{-1})\} }[/math]取得是两个矩阵有效秩的最小值。[math]\displaystyle{ \epsilon= 0 }[/math]就是清晰因果涌现,[math]\displaystyle{ \epsilon\gt 0 }[/math]就是模糊因果涌现。
和离散的概率转移矩阵有所不同,高斯系统因果涌现现象的本质在于其高维条件概率存在冗余的欧式空间维度,这些维度会造成不可逆的产生,由两个方向的协方差矩阵的逆对应等于零或接近零奇异值的奇异向量表示。因果涌现的量化本质上,是通过测量当这些冗余维度被潜在的最佳粗粒度化策略去除时的平均可逆性或随机性的潜在最优结果来实现的。
与最大化有效信息的因果涌现定量化的关系
根据连续系统基于有效信息的的因果涌现
[math]\displaystyle{ \Delta\mathcal{J}^{*}=\frac{1}{2k}\sum_{i=1}^{k}\ln s_i-\frac{1}{2n}\sum_{i=1}^{n}\ln s_i, }[/math]
我们可以发现,最优化后的基于维度平均有效信息的因果涌现和基于SVD的因果涌现彼此是等价的,这是因为我们可以得到基于SVD的因果涌现和基于EI的因果涌现的近似线性关系为:
[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)\simeq(1-\frac{\alpha}{4})\Delta\mathcal{J}^*. }[/math]
至此,从高斯迭代系统,我们可以更清晰的看出可逆性和有效信息的线性相关性,证明两者在一定程度上可以相互验证或替换。
高斯噪声迭代系统基于SVD的粗粒化策略
在得到基于奇异值的因果涌现之后,和TPM矩阵类似,我们也可以根据逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]的奇异向量,指定在高斯迭代系统上的粗粒化策略,将高维的向量映射到低维空间。该粗粒化策略主要操作依然基于奇异值的筛选,主要流程如下。
第一步
在得到基于奇异值的因果涌现之后,和TPM矩阵类似,我们也可以根据逆向动力学的协方差矩阵[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和正向动力学的协方差矩阵[math]\displaystyle{ Σ^{−1} }[/math]的奇异向量,指定在高斯迭代系统上的粗粒化策略,将高维的向量映射到低维空间。基于SVD的理论,[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和[math]\displaystyle{ Σ^{−1} }[/math]都是对称矩阵,因此我们可以直接得到SVD分解
[math]\displaystyle{ A^T\Sigma^{-1}A=USU^T }[/math]
和
[math]\displaystyle{ \Sigma^{-1}=VKV^T }[/math]
其中[math]\displaystyle{ S={\rm diag}(s_1,\cdots,s_n) }[/math]和[math]\displaystyle{ K={\rm diag}(\kappa_i,\cdots,\kappa_n) }[/math]分别是奇异值[math]\displaystyle{ s_1\geq\cdots\geq s_n }[/math]和[math]\displaystyle{ \kappa_1\geq\cdots\geq \kappa_n }[/math]组成的对角矩阵,奇异向量矩阵[math]\displaystyle{ U=(u_1,\cdots,u_n) }[/math]和[math]\displaystyle{ V=(v_1,\cdots,v_n) }[/math]分别包含了两组奇异值对应的奇异向量,它们也可以被分别看成两个生成空间的正交基。
随后我们构造新的奇异值[math]\displaystyle{ \tilde{S}={\rm diag}(\tilde{s}_1,\cdots,\tilde{s}_n) }[/math]对角矩阵与合并的奇异向量矩阵[math]\displaystyle{ \tilde{U}=(\tilde{u}_1,\cdots,\tilde{u}_n) }[/math],其中[math]\displaystyle{ \tilde{s}_1\geq\cdots\geq\tilde{s}_n }[/math]刚好是[math]\displaystyle{ 𝐴^𝑇Σ^{−1}𝐴 }[/math]和[math]\displaystyle{ Σ^{−1} }[/math]的所有奇异值,[math]\displaystyle{ s_1\geq\cdots\geq s_n }[/math]和[math]\displaystyle{ \kappa_1\geq\cdots\geq \kappa_n }[/math],共同从大到小排列后产生的新奇异值谱,[math]\displaystyle{ \tilde{U}=(\tilde{u}_1,\cdots,\tilde{u}_n) }[/math]是[math]\displaystyle{ U=(u_1,\cdots,u_n) }[/math]和[math]\displaystyle{ V=(v_1,\cdots,v_n) }[/math]中与[math]\displaystyle{ \tilde{s}_1\geq\cdots\geq\tilde{s}_n }[/math]对应的奇异向量。
我们规定阈值[math]\displaystyle{ \epsilon }[/math],在第一步中,我们规定大于[math]\displaystyle{ \epsilon }[/math]的[math]\displaystyle{ \tilde{s}_i }[/math]数量为[math]\displaystyle{ r_{\epsilon0} }[/math],我们可以将奇异向量矩阵进行分解,得到
[math]\displaystyle{ \tilde{U}=(\tilde{U}_{1},\tilde{U}_{2}),\tilde{U}_{1}\in\mathcal{R}^{n\times r_{\epsilon0}}, \tilde{U}_{2}\in\mathcal{R}^{n\times (2n-r_{\epsilon0})} }[/math]
其中[math]\displaystyle{ \tilde{U}_{1} }[/math]表示我们希望保留的奇异值对应的奇异向量。
第二步
由于我们得到的矩阵[math]\displaystyle{ \tilde{U}_{1} }[/math]属于空间[math]\displaystyle{ \mathcal{R}^{n\times r_{\epsilon0}} }[/math],而[math]\displaystyle{ r_{\epsilon0} }[/math]不一定小于n;同时,由于[math]\displaystyle{ \tilde{U}_{1} }[/math]中的列向量[math]\displaystyle{ \tilde{u}_{1},\cdots,\tilde{u}_{r_\epsilon 0} }[/math]源于[math]\displaystyle{ U=(u_1,\cdots,u_n),V=(v_1,\cdots,v_n) }[/math]两组可以张成n维空间的正交基,无法保证[math]\displaystyle{ \tilde{u}_{1},\cdots,\tilde{u}_{r_\epsilon 0} }[/math]彼此之间的线性无关和正交。因此我们无法直接利用其转置对n维向量进行粗粒化,因此还需要第二步SVD分解,来得到真正的正交矩阵。我们利用矩阵[math]\displaystyle{ \tilde{U}_{1} }[/math]和[math]\displaystyle{ \tilde{S} }[/math]进行第二步SVD分解,得到
[math]\displaystyle{ \tilde{U}_{1}\tilde{S}=\hat{U}\hat{S}\hat{V}^T }[/math]
[math]\displaystyle{ \hat{S}={\rm diag}(\hat{s}_1,\cdots,\hat{s}_n) }[/math]是矩阵[math]\displaystyle{ \tilde{U}_{1}\tilde{S} }[/math]对应的奇异值,用同样的方法得到大于[math]\displaystyle{ \epsilon }[/math]的[math]\displaystyle{ \hat{s}_i }[/math]数量为[math]\displaystyle{ r_{\epsilon} }[/math]后,我们可以再次对左奇异向量矩阵进行分解得到
[math]\displaystyle{ \hat{U}=(\hat{U}_{1}, \hat{U}_{2}),\hat{U}_{1}\in\mathcal{R}^{n\times r_{\epsilon}}, \hat{U}_{2}\in\mathcal{R}^{n\times (n-r_{\epsilon})} }[/math]
随后我们便可以根据第二步分解得到的奇异向量直接生成粗粒化参数矩阵,即
[math]\displaystyle{ W=\hat{U}_{1}^T\in\mathcal{R}^{r_{\epsilon}\times n} }[/math]
该方法可以全程使用SVD分解进行,不仅省去了繁杂的筛选过程,而且拥有更广泛的应用范围。
连续系统具体案例
增长模型
假设一个4维的向量,前两个维度[math]\displaystyle{ x_1,x_2 }[/math]遵循增长率为0.2和0.05的马尔萨斯增长模型。同时另外两个维度[math]\displaystyle{ x_3,x_4 }[/math]直接复制了前两个维度的状态如图a所示,他们和前两个维度高度相关,甚至可以视为冗余的维度,最终生成数据如图d所示,其中[math]\displaystyle{ x_1,...,x_4 }[/math]表示不同维度的增长曲线,[math]\displaystyle{ y_1y_2 }[/math]表示粗粒化后的宏观态。我们设微观态[math]\displaystyle{ x=(x_1,x_2,x_3,x_4) }[/math], 模型的动力学可以写成[math]\displaystyle{ x_{t+1}=a_0+Ax_t+\varepsilon_t, \varepsilon_t\sim\mathcal{N}(0,\sigma^2 I_4) }[/math],其中[math]\displaystyle{ x_t,x_{t+1}\in\mathcal{R}^{4} }[/math], [math]\displaystyle{ A }[/math]是增长率构成的矩阵, [math]\displaystyle{ \sigma^2=0.1 }[/math]是对角化的协方差矩阵, [math]\displaystyle{ a_0=0 }[/math]是自然参数, 并且
[math]\displaystyle{ A = \left(\begin{matrix} 1.2 & 0 &0 &0 \\ 0 & 1.05 &0 &0 \\ 1.2 & 0 &0 &0 \\ 0 & 1.05 &0 &0 \end{matrix}\right). }[/math]
该矩阵只有两个奇异值矩阵秩[math]\displaystyle{ r=2\lt 4 }[/math]。由于正向矩阵是对角单位阵和常数数乘得到,因此我们只需要考虑逆向动力学的矩阵,如图b所示。如图c所示,横轴表示逆向动力学协方差矩阵的奇异值[math]\displaystyle{ s_1\geq\dots\geq s_4 }[/math], 纵轴表示奇异值大小, 通过计算我们可以得知清晰因果涌现为[math]\displaystyle{ \Delta\Gamma_\alpha(0)=0.4034 }[/math],逆向动力学协方差矩阵如图b所示。
同时我们可以对矩阵A增加一些扰动,使
[math]\displaystyle{ A = \left(\begin{matrix} 1.2 & 0 &0 &0 \\ 0 & 1.05 &0.001 &0 \\ 1.22 & 0 &0.4 &0.1 \\ 0 & 1.06 &0.03 &0.5 \end{matrix}\right) }[/math]
此时增长率参数矩阵[math]\displaystyle{ A }[/math]和[math]\displaystyle{ A^T\Sigma^{-1}A }[/math](图e所示)都是满秩矩阵,但是通过观察图f所示的奇异值谱,我们只能看到两个较大的逆向动力学奇异值[math]\displaystyle{ s_1,s_2 }[/math],此时我们就需要引入模糊因果涌现。我们规定阈值[math]\displaystyle{ \epsilon=2 }[/math], 模糊因果涌现可以计算得到[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)=0.4195 }[/math]。
针对清晰和模糊因果涌现的情形,我们可以直接得到图g和h中的粗粒化策略参数矩阵,可以看到A不满秩的时候,粗粒化策略只保留了前两个维度的信息,而A满秩的时候,粗粒化策略将[math]\displaystyle{ x_1,x_3 }[/math]信息合并,[math]\displaystyle{ x_2,x_4 }[/math]信息合并,达到降维的效果。如图d所示,其中[math]\displaystyle{ x_1,...,x_4 }[/math]表示不同维度的增长曲线,可见宏观态近似于于微观态[math]\displaystyle{ x_1,x_3 }[/math]和[math]\displaystyle{ x_2,x_4 }[/math]两组变量分别求平均得到的结果。
离散化布朗运动
离散布朗运动是离散时间内连续布朗运动的近似,常用于数值模拟和随机过程建模。方程[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t }[/math]可以被视为奥恩斯坦-乌伦贝克(OU)过程的离散版本方法,如图a所示。在这个模型中,[math]\displaystyle{ \mu=a_0+Ax_t }[/math]是影响状态演化的漂移向量,协方差矩阵[math]\displaystyle{ \Sigma }[/math]表示扩散系数,它决定了[math]\displaystyle{ \varepsilon_t }[/math]维度上随机波动的幅度和相关性。
对[math]\displaystyle{ \Sigma^{-1} }[/math]和[math]\displaystyle{ A^T\Sigma^{-1}A }[/math](如图b、c所示)进行SVD分解之后我们可以得到奇异向量矩阵[math]\displaystyle{ U=(u_1,\cdots,u_n) }[/math]和[math]\displaystyle{ V=(v_1,\cdots,v_n) }[/math]其中
[math]\displaystyle{ \begin{aligned} U=\begin{pmatrix} 1& 0& 0& 0& 0& 0& 0& 0 \\ 0& 1& 0& 0& 0& 0& 0& 0 \\ 0& 0& 1& 0& 0& 0& 0& 0 \\ 0& 0& 0& 1& 0& 0& 0& 0 \\ 0& 0& 0& 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0\\ 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0\\ 0& 0& 0& 0& 0& 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}\\ 0& 0& 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}} \end{pmatrix}, V=\begin{pmatrix} 0& 0& 0& 0& \frac{1}{\sqrt{2}}& 0& 0& \frac{1}{\sqrt{2}} \\ 0& \frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0& 0& 0& 0 \\ 0& -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}& 0& 0& 0& 0& 0 \\ 0& 0& 0& 0& -\frac{1}{\sqrt{2}}& 0& 0& \frac{1}{\sqrt{2}} \\ 1& 0& 0& 0& 0& 0& 0& 0\\ 0& 0& 0& 0& 0& 1& 0& 0\\ 0& 0& 0& 0& 0& 0&1& 0\\ 0& 0& 0& 1& 0& 0& 0& 0 \end{pmatrix} \end{aligned} }[/math]
对角化的奇异值矩阵
[math]\displaystyle{ \begin{aligned} S&={\rm diag}(2,1.5,1.3,1.01,0.2,0.12,0.1,0.05)\\ K&={\rm diag}(1.6,1.25,1.1,1.05,0.5,0.4,0.25,0.1). \end{aligned} }[/math]
在得到图d中的奇异值谱之后,规定[math]\displaystyle{ \epsilon=0.6 }[/math],我们可以得到[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon)=0.5167 }[/math],其中有效秩[math]\displaystyle{ r_\epsilon=4 }[/math], [math]\displaystyle{ s_1,\cdots,s_4 }[/math]和[math]\displaystyle{ \kappa_1,\cdots,\kappa_4 }[/math]需要被保留。
得到协方差矩阵[math]\displaystyle{ \Sigma^{-1} }[/math]和[math]\displaystyle{ A^T\Sigma^{-1} A }[/math]的奇异值谱后,我们可以计算具体的粗粒化策略,得到图f中的矩阵W。通过粗粒化策略的求解,我们可以得到如图f所示的粗粒化参数矩阵[math]\displaystyle{ W }[/math],其保留了[math]\displaystyle{ x_1,x_2,x_3,x_5 }[/math]四个维度,从图e可看出在使用高斯噪声迭代系统基于SVD的粗粒化策略后得到的因果涌现指标[math]\displaystyle{ \Delta\Gamma_\alpha^{W}(\epsilon) }[/math],会比直接截取[math]\displaystyle{ U }[/math]或[math]\displaystyle{ V }[/math]得到的对应因果涌现大小[math]\displaystyle{ \Delta\Gamma_\alpha^{U_1}(\epsilon) }[/math]、[math]\displaystyle{ \Delta\Gamma_\alpha^{V_1}(\epsilon) }[/math]略更接近理论最大的[math]\displaystyle{ \Delta\Gamma_\alpha(\epsilon) }[/math]。
SIR模型
在NIS+词条中的SIR模型在这里也可以通过可逆性与SVD分解计算因果涌现并研究其底层产生涌现的机理。现实中的大多数系统都无法获得精确的动态模型来计算因果涌现的解析解。然而,我们可以通过观察到的时间序列数据训练神经网络来获得近似动力学。我们用神经网络(NN)在易感-感染-恢复(SIR)模型生成的训练时间序列数据上产生因果涌现现象,模型有两个自由度,如下所示
[math]\displaystyle{ \begin{aligned} \begin{cases} \frac{\mathrm{d}S}{\mathrm{d}t}=-\beta SI, \\ \frac{\mathrm{d}I}{\mathrm{d}t}=\beta SI - \gamma I, \\ \frac{\mathrm{d}R}{\mathrm{d}t}= \gamma I, \end{cases} \end{aligned} }[/math]
其中S表示易感态样本的比例,I表示感染态的比例,R表示恢复态的比例,三者的关系如图a所示,[math]\displaystyle{ \beta }[/math]和[math]\displaystyle{ \gamma }[/math]分别表示S与I、I与R之间的转化率。我们可以采取和增长模型相同的数据处理方法,[math]\displaystyle{ x_3,x_4 }[/math]直接复制了前两个维度的状态,得到[math]\displaystyle{ x=(S,I,S,I) }[/math],之后我们可以将模型离散化,即
[math]\displaystyle{ x_{t+\Delta t}\approx x_t+\Delta x_t\sim\mathcal{N}(x_t+f(x_t)\Delta t,\Delta t\Sigma) }[/math]
由此可以得到图b中的生成数据。从图e中可以看出,[math]\displaystyle{ A^T\Sigma^{-1}A }[/math](如图c所示)有两个较大的奇异值,差距比[math]\displaystyle{ \Sigma^{-1} }[/math](如图d所示)更大,[math]\displaystyle{ r_\epsilon=2 }[/math],因为[math]\displaystyle{ \epsilon=5 }[/math],正逆向的协方差矩阵如图c和d所示。在模型训练中,当训练周期为50000时,我们得到因果涌现的值为[math]\displaystyle{ \Delta\Gamma\alpha(\epsilon)=0.8685 }[/math]。
图f中可以看出,因果涌现[math]\displaystyle{ \Delta\Gamma_\alpha }[/math]并不是恒等的,而是会随S、I的不同发生改变,我们得到的结果0.8685是不同状态的[math]\displaystyle{ \Delta\Gamma_\alpha }[/math]求均值后得到的结果;观察规定[math]\displaystyle{ \epsilon=5 }[/math]下的[math]\displaystyle{ r_\epsilon }[/math]均值(图g)也可以得到相似的规律,[math]\displaystyle{ \Delta\Gamma_\alpha }[/math]较大的地方,有效秩会相等更接近2。
我们可以得到图h中的粗粒化策略参数矩阵,粗粒化策略将[math]\displaystyle{ x_1,x_3 }[/math]信息合并,[math]\displaystyle{ x_2,x_4 }[/math]信息合并,达到降维的效果。
参考文献
- ↑ 1.0 1.1 Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.
- ↑ Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.
- ↑ 3.0 3.1 3.2 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.
- ↑ 4.0 4.1 Barnett L, Seth AK. Dynamical independence: discovering emergent macroscopic processes in complex dynamical systems. Physical Review E. 2023 Jul;108(1):014304.
- ↑ Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279
- ↑ 6.0 6.1 6.2 6.3 6.4 Zhang, J., Tao, R., Leong, K.H. et al. Dynamical reversibility and a new theory of causal emergence based on SVD. npj Complex 2, 3 (2025).
- ↑ 7.0 7.1 Kaiwei Liu, Linli Pan, Zhipeng Wang, et al. SVD-based Causal Emergence for Gaussian Iterative Systems. arXiv:2502.08261, 2025.
- ↑ Schatten norm from Wikipedia. https://en.wikipedia.org/wiki/Schatten norm
- ↑ Recht, B., Fazel, M., Parrilo, P.A.: Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review 52(3), 471–501 (2010)
- ↑ Chi, Y., Lu, Y.M., Chen, Y.: Nonconvex optimization meets low-rank matrix factorization: An overview. IEEE Transactions on Signal Processing 67(20), 52395269 (2019)
- ↑ 11.0 11.1 Cui, S., Wang, S., Zhuo, J., Li, L., Huang, Q., Tian, Q.: Towards discriminability and diversity: Batch nuclear-norm maximization under label insufficient situations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3941–3950 (2020)
- ↑ Fazel, M.: Matrix rank minimization with applications. PhD thesis, PhD thesis, Stanford University (2002)
- ↑ 13.0 13.1 13.2 13.3 Hoel, E.P., Albantakis, L., Tononi, G.: Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences of the United States of America 110(49), 19790–19795 (2013) https://doi.org/10.1073/ pnas.1314922110
- ↑ Hoel, E.P.: When the map is better than the territory. Entropy 19(5) (2017) https://doi.org/10.3390/e19050188
编者推荐
下面是一些链接能够帮助读者更好的了解因果涌现的相关信息:
因果涌现读书会
文章推荐
- Zhang J, Tao R, Leong K H, et al. Dynamical reversibility and a new theory of causal emergence based on SVD[J]. npj Complexity, 2025, 2(1): 3.
- Yuan, B.; Zhang, J. et al. Emergence and Causality in Complex Systems: A Survey of Causal Emergence and Related Quantitative Studies. Entropy 2024, 26, 108.
- Liu K, Pan L, Wang Z, et al. SVD-based Causal Emergence for Gaussian Iterative Systems[J]. arXiv preprint arXiv:2502.08261, 2025.
- Liu K, Yuan B, Zhang J. An exact theory of causal emergence for linear stochastic iteration systems[J]. Entropy, 2024, 26(8): 618.
- Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.
路径推荐
- 张江老师根据因果涌现读书会第一季梳理的关于因果涌现的学习路径:https://pattern.swarma.org/article/153
- 张江老师根据因果涌现前五季读书会整理的因果涌现入门路径:https://pattern.swarma.org/article/296
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。