随机迭代系统的因果涌现

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

在对复杂系统进行粗颗粒化后,其宏观状态的动力学可能比其微观状态的动力学表现出更明显的因果效应。这种现象被称为因果涌现,该指标通过有效信息指标来量化,若出现宏观有效信息大于微观有效信息,则意味着因果涌现的产生。然而,这一理论面临两个挑战:连续随机动力系统缺乏完善的框架,以及对粗粒度方法的依赖。

现实中诸多复杂系统的动力学模型都可以转化成迭代系统来表达系统的演化,比如粒子的随机游走、导热体热量的耗散以及空间中的旋转模型,虽然时间是离散的,但是其分布状态空间属于连续空间,整个迭代系统自身的因果效应也需要相关的指标来针对性的进行量化。

为了解决以上问题,我们需要引入一个精确的理论框架,用于研究具有连续状态空间和高斯噪声的线性随机迭代系统中的因果涌现。在此基础上,我们推导了一般动力学中有效信息的解析表达式,并确定了最佳线性粗粒化策略,当粗粒化消除的维度平均不确定性有上限时,该策略可最大限度地提高因果涌现的程度。

历史渊源

Erik Hoel提出了因果出现的最初定量理论,该理论建立在有效信息([math]\displaystyle{ EI\equiv I(Y;X|do(X\sim U)) }[/math])的基础上,原始框架仅限于量化时域和状态空间中的离散马尔可夫链。为了在连续空间中扩展因果涌现理论,Hoel又提出了因果几何理论,其中他们设计了一种计算连续状态空间上函数映射中有效信息的方法。尽管如此,该理论只探索了一般的函数映射,而忽略了多步动力学演化,使其不适用于连续状态空间中的动力学系统。同时Erik Hoel的理论还有一个共同问题就是粗粒化策略必须预先给定,而缺少优化方法。

粗粒化复杂系统的策略,包括手动设计的重整化方法,传统的降维技术,以及基于机器学习的粗粒化或重整化方法。为了自动发现优化因果出现的粗粒度策略,张江和刘凯威引入了一种机器学习框架,称为神经信息挤压器(NIS),采用可逆神经网络。该框架有助于自动提取有效的粗粒度策略和宏观状态动力学,从而能够从不同的时间序列数据中直接识别因果关系。随后,研究团队提出了增强的NIS+框架,该框架将通过有效信息最大化的粗粒度优化集成到机器学习中,成功地解决了识别数据中因果出现的挑战。尽管如此,基于机器学习的方法在很大程度上依赖于数据的充分性和神经网络训练的水平。虽然它们可以提供数字解决方案,但缺乏评估模型训练质量和结果指标可靠性的基本事实。

简介

为了克服先前研究中发现的局限性,随机迭代系统

[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t, A\in\mathcal{R}^{n\times n}, \varepsilon_t\sim\mathcal{N}(0,\Sigma), {\rm rk}(A)={\rm rk}(\Sigma)=n }[/math]

通过粗粒化策略

[math]\displaystyle{ y_t=Wx_t, W\in R^{k\times n},k\lt n }[/math]

得到宏观动力学

[math]\displaystyle{ y_{t+1}=A_M y_t+\varepsilon_{M,t}, A_M=WAW^\dagger\in \mathcal{R}^{k\times k}, \varepsilon_{M,t}\sim \mathcal{N}(0,\Sigma_M), \Sigma_M=W\Sigma W^{T} }[/math]

后的因果涌现

[math]\displaystyle{ \Delta\mathcal{J}=\mathop{\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}}}_{Determinism Emergence}-\mathop{\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}}}_{Degeneracy Emergence} }[/math]

及其相关研究一定程度上可以解决上述问题。

微观和宏观动力学的有效信息

随机迭代系统的因果涌现由宏观态的有效信息[math]\displaystyle{ \mathcal{J}_M }[/math]和微观态的有效信息[math]\displaystyle{ \mathcal{J}_m }[/math]做差得到

[math]\displaystyle{ \Delta \mathcal{J} = \mathcal{J}_M-\mathcal{J}_m }[/math]

两项都是随机迭代系统的有效信息。

确定性和简并性

随机迭代系统的因果涌现还可以分解成两项,确定性涌现

[math]\displaystyle{ \Delta\mathcal{J}_1=\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}} }[/math]

和简并性涌现

[math]\displaystyle{ \Delta\mathcal{J}_2=\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}} }[/math]

两者分别是微观态、宏观态的确定性、简并性做差产生。粗粒化造成的确定性涌现越大、简并性涌现越小、因果涌现也会越大。

因果涌现最大化

为了找到不依赖粗粒化策略的因果涌现,我们可以通过优化粗粒化策略得到因果涌现的最优解

[math]\displaystyle{ \Delta\mathcal{J}^{*}=\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|-\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i|+\eta }[/math]

其中[math]\displaystyle{ |\lambda_1|\geq|\lambda_2|\geq\dots\geq|\lambda_n|\geq 0 }[/math]是参数矩[math]\displaystyle{ A\in\mathcal{R}^{n\times n}, {\rm rk}(A)={\rm rk}, }[/math]的特征值,[math]\displaystyle{ \eta }[/math]是粗粒化造成的信息熵损失[math]\displaystyle{ \frac{1}{n}H(p(x_{t+1})|p(x_t))-\frac{1}{k}H(p(y_{t+1}|y_t)) }[/math]的下界。

随机迭代系统的有效信息

而因果涌现由宏观态和微观态的有效信息作差得到。对于形如

[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t, A\in\mathcal{R}^{n\times n}, \varepsilon_t\sim\mathcal{N}(0,\Sigma), ${\rm rk}(A)={\rm rk}(\Sigma)=n }[/math]

的迭代系统,对于单步的映射我们可以得到有效信息

[math]\displaystyle{ \mathcal{J}(A,\Sigma)\equiv \frac{EI(A,\Sigma)}{n}=\frac{1}{n}\ln\displaystyle\frac{|\det(A)|L^n}{(2\pi e)^\frac{n}{2}\displaystyle \det(\Sigma)^\frac{1}{2}}=\ln\displaystyle\frac{|\det(A)|^\frac{1}{n}L}{(2\pi e)^\frac{1}{2}\displaystyle \det(\Sigma)^\frac{1}{2n}}. }[/math]

随即迭代系统的有效信息可以分解确定性和简并性为两项,

[math]\displaystyle{ \mathcal{J}=\mathcal{J}_1-\mathcal{J}_2 }[/math]

确定性

[math]\displaystyle{ \mathcal{J}_1\equiv-\left\lt H(p(x_{t+1}|x_t))\right\gt =-\ln\left[(2\pi e)^\frac{n}{2}\det(\Sigma)^\frac{1}{2}\right] }[/math]

描述系统前一时刻状态已知的情况下,后一时刻的随机性,确定性越强,随机性越小,越容易对系统未来趋势进行预测。

简并性

[math]\displaystyle{ \mathcal{J}_2\equiv-H(E_D(x_{t+1}))=-\ln\left(|det(A)|L^n\right) }[/math]

描述后一时刻已知的情况下,对前一时刻的可追溯性,简并性越弱,系统越容易推断系统以往的演化路径。

确定性越强,简并性越弱,有效信息则会越大,因果效应越强。

宏观有效信息与微观有效信息做差之后就可以得到随即迭代系统的因果涌现。而微观、宏观的确定性和简并性分别做差就可以得到确定性、简并性涌现。

因果涌现的最优化

对于因果涌现,我们可以对确定性和简并性分别最优化,确定性涌现越大,简并性涌现越小,则因果涌现会最大

确定性涌现

[math]\displaystyle{ \Delta\mathcal{J}_1=\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}}\leq\frac{1}{n}H(p(x_{t+1})|p(x_t))-\frac{1}{k}H(p(y_{t+1}|y_t))\leq\eta }[/math]

简并性涌现

[math]\displaystyle{ \Delta\mathcal{J}_2=\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}}\geq\ln\frac{|\prod_{i=1}^n\lambda_i|^\frac{1}{n}}{|\prod_{i=1}^k\lambda_i|^\frac{1}{k}}=-\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|+\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i| }[/math]

因果涌现最大值为

[math]\displaystyle{ \Delta\mathcal{J}^{*}=\Delta\mathcal{J}_1^{*}-\Delta\mathcal{J}_2^{*}=\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|-\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i|+\eta }[/math]