“随机迭代系统的因果涌现”的版本间的差异
(→近似化简) |
|||
第232行: | 第232行: | ||
\end{cases} | \end{cases} | ||
</math> | </math> | ||
+ | |||
+ | 其中<math> | ||
+ | V=(V_1,\dots,V_n) | ||
+ | </math>,<math> | ||
+ | V_i | ||
+ | </math>是与矩阵<math> | ||
+ | A | ||
+ | </math>的特征值<math> | ||
+ | \lambda_i | ||
+ | </math>相对应的特征向量,<math> | ||
+ | i=1,\ddots,n,\lambda_i,\lambda _1\geq\dots\geq\lambda_n | ||
+ | </math>,<math> | ||
+ | \tilde{W}_k\in \mathcal{R}^{k\times k} | ||
+ | </math>可以是任何可逆矩阵。 |
2024年6月29日 (六) 11:59的版本
随机迭代系统的因果涌现指的是针对形如[math]\displaystyle{ x_{t+1}=f(x_t)+\varepsilon_t, f:\mathcal{R}^n\to\mathcal{R}^n, \varepsilon_t\sim\mathcal{N}(0,\Sigma),{\rm rk}(\Sigma)=n }[/math]的动力系统,在降维粗粒化之后,展现出的系统在宏观尺度因果特性强于微观尺度的程度的度量。在对复杂系统进行粗颗粒化后,其宏观状态的动力学可能比其微观状态的动力学表现出更明显的因果效应。这种现象被称为因果涌现,该指标通过有效信息指标来量化,若出现宏观有效信息大于微观有效信息,则意味着因果涌现的产生。这一理论一定程度上解决了Erik Hoel提出了因果出现理论面临的两个挑战:连续随机动力系统缺乏完善的框架,以及对粗粒度方法的依赖。
现实中诸多复杂系统的动力学模型都可以转化成迭代系统来表达系统的演化,比如粒子的随机游走、导热体热量的耗散以及空间中的旋转模型,虽然时间是离散的,但是其分布状态空间属于连续空间,而不是马尔科夫链或者复杂网络一样可以将状态确定在有限的状态点位上,整个迭代系统自身的因果效应也需要相关的指标来针对性的进行量化。为了解决以上问题,随机迭代系统的因果涌现作为一个精确的理论框架,可被应用于研究具有连续状态空间和高斯噪声的线性随机迭代系统中的因果涌现。该框架不仅可以给出线性线性随机迭代系统有效信息和因果涌现的解析表达式,还可以确定最佳线性粗粒化策略,当粗粒化消除的维度平均不确定性有上限时,该策略可最大限度地提高因果涌现的程度。解析表达式本身可以拓展到一般动力学的空间上,但是其因果涌现的大小和最优粗粒化策略会受到时间和迭代函数本身的影响。
历史
Erik Hoel提出了因果出现的最初定量理论,该理论建立在有效信息([math]\displaystyle{ EI\equiv I(Y;X|do(X\sim U)) }[/math])的基础上,原始框架仅限于量化时域和状态空间中的离散马尔可夫链。为了在连续空间中扩展因果涌现理论,Hoel又提出了因果几何理论,其中他们设计了一种计算连续状态空间上函数映射中有效信息的方法。尽管如此,该理论只探索了一般的函数映射,而忽略了多步动力学演化,使其不适用于连续状态空间中的动力学系统。同时Erik Hoel的理论还有一个共同问题就是粗粒化策略必须预先给定,而缺少优化方法。
粗粒化复杂系统的策略,包括手动设计的重整化方法,传统的降维技术,以及基于机器学习的粗粒化或重整化方法。为了自动发现优化因果出现的粗粒度策略,张江和刘凯威引入了一种机器学习框架,称为神经信息挤压器(NIS),采用可逆神经网络。该框架有助于自动提取有效的粗粒度策略和宏观状态动力学,从而能够从不同的时间序列数据中直接识别因果关系。随后,研究团队提出了增强的NIS+框架,该框架将通过有效信息最大化的粗粒度优化集成到机器学习中,成功地解决了识别数据中因果出现的挑战。尽管如此,基于机器学习的方法在很大程度上依赖于数据的充分性和神经网络训练的水平。虽然它们可以提供数字解决方案,但缺乏评估模型训练质量和结果指标可靠性的基本事实。
简介
随机迭代系统形如
[math]\displaystyle{ x_{t+1}=f(x_t)+\varepsilon_t, f:\mathcal{R}^n\to\mathcal{R}^n, \varepsilon_t\sim\mathcal{N}(0,\Sigma),{\rm rk}(\Sigma)=n }[/math]
可以通过粗粒化策略
[math]\displaystyle{ y_t=\phi(x_t), \phi: \mathcal{R}^{n}\to\mathcal{R}^{k},k\lt n }[/math]
得到同为随机迭代系统但变量维数降低的宏观动力学
[math]\displaystyle{ y_{t+1}=f_M(y_t)+\varepsilon_{M,t}, f_M:\mathcal{R}^k\to\mathcal{R}^k, \varepsilon_{M,t}\sim\mathcal{N}(0,\Sigma_M),{\rm rk}(\Sigma_M)=k }[/math]
其中宏观映射
[math]\displaystyle{ f_M(y_t)=\phi(f(\phi^\dagger(y_t))), \phi^\dagger: \mathcal{R}^{k}\to\mathcal{R}^{n}, \phi(\phi^\dagger(y_t))=y_t }[/math]
微观上我们将[math]x[/math]干预成[math]\displaystyle{ [-L/2,L/2]^n\subset\mathcal{R}^n }[/math]上的均匀分布,[math]\displaystyle{ [-L/2,L/2]^n }[/math]表示n维空间中的超立方体,我们假设[math]\displaystyle{ y\in\mathcal{R}^k }[/math],其中[math]\displaystyle{ n }[/math]和[math]\displaystyle{ k }[/math]是正整数。有效信息EI可以推广为以下形式:
[math]\displaystyle{ EI(f,\Sigma)\approx \ln\left(\frac{L^n}{(2\pi e)^{n/2}}\right)+\frac{1}{L^n}\int_{[-\frac{L}{2},\frac{L}{2}]^n}\ln\left|\det\left(\frac{\partial_{x_t} f(x_t)}{\Sigma^{1/2}}\right)\right| dx, }[/math]
其中,[math]\displaystyle{ |\cdot| }[/math]是绝对值运算,[math]\displaystyle{ \det }[/math]是行列式。
EI的计算公式中包含着[math]\ln L^n[/math]项。由于L为一个很大的正数,因而EI的计算结果将会受到L的严重影响,为了降低维度本身对有效信息的影响,我们采用平均维度的有效信息
[math]\displaystyle{ \mathcal{J}(f,\Sigma)=\frac{EI(f,\Sigma)}{n}\approx \ln\left(\frac{L}{(2\pi e)^{1/2}}\right)+\frac{1}{L^n}\int_{[-\frac{L}{2},\frac{L}{2}]^n}\ln\left|\det\left(\frac{\partial_{x_t} f(x_t)}{\Sigma^{1/2}}\right)\right|^\frac{1}{n} dx, }[/math]
宏观态同理。
计算因果涌现我们只需要在宏观微观分别计算维度平均后的有效信息并用宏观的有效信息与微观作差,即可计算出因果涌现的度量
[math]\displaystyle{ \Delta\mathcal{J}=\mathcal{J}_M(f_M,\Sigma_M)-\mathcal{J}_m(f,\Sigma) }[/math]
由于一般情况下有效信息与因果涌现受映射[math]\displaystyle{ f:\mathcal{R}^n\to\mathcal{R}^n }[/math]影响较大,而映射自身会受状态[math]\displaystyle{ x_t }[/math]本身以及其所处时间[math]\displaystyle{ t }[/math]影响,故很多性质我们很难直接研究。但如果是线性随机迭代系统,映射函数及其导函数相对固定,我们就可以从中挖掘更多的信息。
近似化简
依据拉格朗日中值定理,存在[math]\displaystyle{ x_t\in[-\frac{L}{2},\frac{L}{2}]^n }[/math]有效信息EI可以推广为以下形式:
[math]\displaystyle{ EI(f,\Sigma)\approx \ln\left(\frac{L^n}{(2\pi e)^{n/2}}\right)+\ln\left|\det\left(\frac{\partial_{x_t^*} f(x_t^*)}{\Sigma^{1/2}}\right)\right|, }[/math]
当L较小时可以简写成
[math]\displaystyle{ EI(f,\Sigma)\approx \ln\left(\frac{|\det(\nabla f(x_t))|L^n}{(2\pi e)^{n/2}}\det(\Sigma^\frac{1}{2})\right) }[/math]
这样因果涌现就可以写成
[math]\displaystyle{ \Delta\mathcal{J}(x_t)=\ln\frac{|\det(\nabla f_M(y_t)|^\frac{1}{k}}{|\det(\nabla f(x_t)|^\frac{1}{n}}+\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(\Sigma_M)|^\frac{1}{2k}}. }[/math]
这种形式和现行情况更为接近,因此可以从线性系统的性质,对非线性情况进行类比和推论。
线性随机迭代系统的因果涌现
线性随机迭代系统是指形如
[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t, A\in\mathcal{R}^{n\times n}, \varepsilon_t\sim\mathcal{N}(0,\Sigma), {\rm rk}(A)={\rm rk}(\Sigma)=n }[/math]
的迭代系统,此时迭代映射函数的参数可以与变量分离,我们可以单独研究参数本身对有效信息以及因果涌现的影响。
微观和宏观动力学的有效信息
随机迭代系统的因果涌现由宏观态的有效信息[math]\displaystyle{ \mathcal{J}_M }[/math]和微观态的有效信息[math]\displaystyle{ \mathcal{J}_m }[/math]做差得到
[math]\displaystyle{ \Delta \mathcal{J} = \mathcal{J}_M-\mathcal{J}_m }[/math]
两项都是随机迭代系统的有效信息。
而因果涌现由宏观态和微观态的有效信息作差得到。对于线性随机迭代系统,对于单步的映射我们可以得到有效信息
[math]\displaystyle{ \mathcal{J}(A,\Sigma)\equiv \frac{EI(A,\Sigma)}{n}=\frac{1}{n}\ln\displaystyle\frac{|\det(A)|L^n}{(2\pi e)^\frac{n}{2}\displaystyle \det(\Sigma)^\frac{1}{2}}=\ln\displaystyle\frac{|\det(A)|^\frac{1}{n}L}{(2\pi e)^\frac{1}{2}\displaystyle \det(\Sigma)^\frac{1}{2n}}. }[/math]
随即迭代系统的有效信息可以分解确定性和简并性为两项,
[math]\displaystyle{ \mathcal{J}=\mathcal{J}_1-\mathcal{J}_2 }[/math]
确定性
[math]\displaystyle{ \mathcal{J}_1\equiv-\left\lt H(p(x_{t+1}|x_t))\right\gt =-\ln\left[(2\pi e)^\frac{n}{2}\det(\Sigma)^\frac{1}{2}\right] }[/math]
描述系统前一时刻状态已知的情况下,后一时刻的随机性,确定性越强,随机性越小,越容易对系统未来趋势进行预测。
简并性
[math]\displaystyle{ \mathcal{J}_2\equiv-H(E_D(x_{t+1}))=-\ln\left(|det(A)|L^n\right) }[/math]
描述后一时刻已知的情况下,对前一时刻的可追溯性,简并性越弱,系统越容易推断系统以往的演化路径。
确定性越强,简并性越弱,有效信息则会越大,因果效应越强。
宏观有效信息与微观有效信息做差之后就可以得到随即迭代系统的因果涌现。而微观、宏观的确定性和简并性分别做差就可以得到确定性、简并性涌现。
因果涌现
为了克服先前研究中发现的局限性,随机迭代系统
[math]\displaystyle{ x_{t+1}=Ax_t+\varepsilon_t, A\in\mathcal{R}^{n\times n}, \varepsilon_t\sim\mathcal{N}(0,\Sigma), {\rm rk}(A)={\rm rk}(\Sigma)=n }[/math]
通过粗粒化策略
[math]\displaystyle{ y_t=Wx_t, W\in R^{k\times n},k\lt n }[/math]
得到宏观动力学
[math]\displaystyle{ y_{t+1}=A_M y_t+\varepsilon_{M,t}, A_M=WAW^\dagger\in \mathcal{R}^{k\times k}, \varepsilon_{M,t}\sim \mathcal{N}(0,\Sigma_M), \Sigma_M=W\Sigma W^{T} }[/math]
后的因果涌现
[math]\displaystyle{ \Delta\mathcal{J}=\mathop{\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}}}_{Determinism Emergence}-\mathop{\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}}}_{Degeneracy Emergence} }[/math]
及其相关研究一定程度上可以解决上述问题。
确定性和简并性
随机迭代系统的因果涌现还可以分解成两项,确定性涌现
[math]\displaystyle{ \Delta\mathcal{J}_1=\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}} }[/math]
和简并性涌现
[math]\displaystyle{ \Delta\mathcal{J}_2=\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}} }[/math]
两者分别是微观态、宏观态的确定性、简并性做差产生。粗粒化造成的确定性涌现越大、简并性涌现越小、因果涌现也会越大。
因果涌现最大化
为了找到不依赖粗粒化策略的因果涌现,我们可以通过优化粗粒化策略得到因果涌现的最优解
[math]\displaystyle{ \Delta\mathcal{J}^{*}=\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|-\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i|+\eta }[/math]
其中[math]\displaystyle{ |\lambda_1|\geq|\lambda_2|\geq\dots\geq|\lambda_n|\geq 0 }[/math]是参数矩[math]\displaystyle{ A\in\mathcal{R}^{n\times n}, {\rm rk}(A)={\rm rk}, }[/math]的特征值,[math]\displaystyle{ \eta }[/math]是粗粒化造成的信息熵损失[math]\displaystyle{ \frac{1}{n}H(p(x_{t+1})|p(x_t))-\frac{1}{k}H(p(y_{t+1}|y_t)) }[/math]的下界。
线性随机迭代系统因果涌现的最优化
对于因果涌现,我们可以对确定性和简并性分别最优化,确定性涌现越大,简并性涌现越小,则因果涌现会最大
确定性涌现
[math]\displaystyle{ \Delta\mathcal{J}_1=\ln\frac{|\det(\Sigma)|^\frac{1}{2n}}{|\det(W\Sigma W^{T})|^\frac{1}{2k}}\leq\frac{1}{n}H(p(x_{t+1})|p(x_t))-\frac{1}{k}H(p(y_{t+1}|y_t))\leq\eta }[/math]
简并性涌现
[math]\displaystyle{ \Delta\mathcal{J}_2=\ln\frac{|\det(A)|^\frac{1}{n}}{|\det(WAW^\dagger)|^\frac{1}{k}}\geq\ln\frac{|\prod_{i=1}^n\lambda_i|^\frac{1}{n}}{|\prod_{i=1}^k\lambda_i|^\frac{1}{k}}=-\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|+\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i| }[/math]
因果涌现最大值为
[math]\displaystyle{ \Delta\mathcal{J}^{*}=\Delta\mathcal{J}_1^{*}-\Delta\mathcal{J}_2^{*}=\frac{1}{k}\sum_{i=1}^{k}\ln\displaystyle|\lambda_i|-\frac{1}{n}\sum_{i=1}^{n}\ln\displaystyle|\lambda_i|+\eta }[/math]
因果涌现最优化时粗粒化参数的解集
在优化确定性涌现和退化性涌现后,我们可以找到与最优解相对应的两个解集。因此,两个解集的交集是对应于因果涌现的最大程度的[math]\displaystyle{ W }[/math]的解集。
当[math]\displaystyle{ \varepsilon_t\sim N_\mathcal{N}(0,\Sigma) }[/math]时,若使因果涌现度达到其最大值时,[math]\displaystyle{ W }[/math]需要满足
[math]\displaystyle{ \begin{cases} WV=(\tilde{W}_k,O_{k\times{(n-k)}}),\\ \det{(W\Sigma W^{T})}^\frac{1}{k}=\epsilon\det{(\Sigma)}^\frac{1}{n}, \end{cases} }[/math]
其中[math]\displaystyle{ V=(V_1,\dots,V_n) }[/math],[math]\displaystyle{ V_i }[/math]是与矩阵[math]\displaystyle{ A }[/math]的特征值[math]\displaystyle{ \lambda_i }[/math]相对应的特征向量,[math]\displaystyle{ i=1,\ddots,n,\lambda_i,\lambda _1\geq\dots\geq\lambda_n }[/math],[math]\displaystyle{ \tilde{W}_k\in \mathcal{R}^{k\times k} }[/math]可以是任何可逆矩阵。