更改

基于可逆性的因果涌现理论 (查看源代码)

2024年8月25日 (日) 16:34的版本

删除802字节、 2024年8月25日 (星期日)

无编辑摘要

第1行：第1行： −

[[基于可逆性的因果涌现理论]]是一种量化[[因果涌现 Causal Emergence|因果涌现]]~~强度的新框架，该方法基于奇异值分解和动力学可逆性的概念，提出了近似动力学可逆性~~<math>

+

[[基于可逆性的因果涌现理论]]是一种量化[[因果涌现 Causal Emergence|因果涌现]]的新框架，该方法基于奇异值分解和动力学可逆性的概念，提出了近似动力学可逆性的概念：<math>

\Gamma_{\alpha}

</math>，<math>

\Gamma_{\alpha}

−

</math>~~可用于量化因果涌现的强度。经过理论推导和数值实验证明，在对因果涌现的判断和量化上，该理论与基于~~[[有效信息]](EI)的因果涌现理论具有相同的效果，且<math>

+

</math>可用于量化因果涌现的强度。经过理论推导和数值实验证明，在对因果涌现的判断和量化上，该理论与Eric Hoel等人提出的基于[[有效信息]](EI)的因果涌现理论具有相同的效果，且<math>

−

\Gamma_{\alpha}

+

log\Gamma_{\alpha}

−

</math>~~和EI在多个方面存在相似之处。此外，该理论还提出了基于SVD的粗粒化方法并进行实验，证明了该粗粒化方法的有效性。~~

+

</math>和EI在多个方面存在联系。此外，该理论还提出了基于SVD分解的粗粒化方法，并通过实验证明了该方法的有效性。

==简介==

基于可逆性的因果涌现理论的核心概念是近似动力学可逆性：

+

<math>\begin{align}

\Gamma_{\alpha}=\sum_{i=1}^{N}\sigma_{i}^{\alpha}\tag{3}\end{align}

</math>

+

其中<math>

\sigma_{i}

第17行：第19行：

\alpha\in(0,2)

</math>是参数。

+

借助<math>

\Gamma_{\alpha}

第42行：第45行：

</math>和对应的TPM P，当且仅当P是置换矩阵的时候，P是严格动力学可逆的。

−

证明见参考文献<ref name="Zhangjiang">Zhang, Jiang, Ruyi Tao, and Bing Yuan. "Dynamical Reversibility and A New Theory of Causal Emergence." arXiv preprint arXiv:2402.15054 (2024).</ref>

+

证明见参考文献<ref name="Zhangjiang">Zhang, Jiang, Ruyi Tao, and Bing Yuan. "Dynamical Reversibility and A New Theory of Causal Emergence." arXiv preprint arXiv:2402.15054 (2024).</ref>

纯粹的置换矩阵在所有可能的TPM中非常稀少，所以大多数的TPM并不是严格动力学可逆的。因此，需要一个指标来刻画任意一个TPM接近动力学可逆的程度。

第81行：第84行：

下面定义矩阵P的近似动力学可逆性：

−

~~假设马尔科夫链的概率转移矩阵为P，奇异值为~~<math>

+

假设马尔科夫链的TPM为P，奇异值为<math>

(\sigma_{1}\ge\sigma_{2}\ge...\ge\sigma_{N}\ge0)

</math>，那么矩阵P的<math>

第103行：第106行：

</math>时，<math>

\Gamma_{\alpha}

−

</math>是P的[[准范数]]（quasinorm）<ref>Schatten norm from Wikipedia. https://en.wikipedia.org/wiki/Schatten norm</ref><ref>Recht, B., Fazel, M., Parrilo, P.A.: Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review 52(3), 471–501 (2010)</ref><ref>Chi, Y., Lu, Y.M., Chen, Y.: Nonconvex optimization meets low-rank matrix factorization: An overview. IEEE Transactions on Signal Processing 67(20), 52395269 (2019)</ref><ref name=Cui>Cui, S., Wang, S., Zhuo, J., Li, L., Huang, Q., Tian, Q.: Towards discriminability and diversity: Batch nuclear-norm maximization under label insufficient situations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3941–3950 (2020)</ref>。

+

</math>是P的[[准范数]]（quasinorm）<ref>Schatten norm from Wikipedia. https://en.wikipedia.org/wiki/Schatten norm</ref><ref>Recht, B., Fazel, M., Parrilo, P.A.: Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM review 52(3), 471–501 (2010)</ref><ref>Chi, Y., Lu, Y.M., Chen, Y.: Nonconvex optimization meets low-rank matrix factorization: An overview. IEEE Transactions on Signal Processing 67(20), 52395269 (2019)</ref><ref name="Cui">Cui, S., Wang, S., Zhuo, J., Li, L., Huang, Q., Tian, Q.: Towards discriminability and diversity: Batch nuclear-norm maximization under label insufficient situations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3941–3950 (2020)</ref>。

使用这个定义来刻画近似动力学可逆性是合理的，因为完全动力学可逆性可以通过最大化<math>

第124行：第127行：

通过调整参数<math>

\alpha\in(0,2)

−

</math>~~，我们可以使更好地反映P的确定性或者简并性。当~~<math>

+

</math>，可以使更好地反映P的确定性或者简并性。当<math>

\Gamma_{\alpha}\to0,\Gamma_{\alpha}

</math>收敛到P的秩，这类似于EI定义中的非简并项，因为随着P越来越退化，r越来越小。然而，定义不允许<math>

第142行：第145行：

</math>与EI定义中的确定性项具有可比性，因为当P具有越来越多的one-hot向量，P的中的最大转移概率也会变得更大，意味着动力学变得更加可逆。

−

~~在实践中，我们总是取~~<math>

+

在实践中总是取<math>

\alpha=1

</math>来平衡<math>

第148行：第151行：

</math>测量确定性和简并性的倾向，<math>

\Gamma_{\alpha=1}

−

</math>被称为核范数<ref name=Cui /><ref>Fazel, M.: Matrix rank minimization with applications. PhD thesis, PhD thesis, Stanford University (2002)</ref>。

+

</math>被称为核范数<ref name="Cui" /><ref>Fazel, M.: Matrix rank minimization with applications. PhD thesis, PhD thesis, Stanford University (2002)</ref>。

−

~~考虑到<math>~~

+

为简便，下文中将<math>

−

~~\alpha=1~~

−

~~</math>的重要性，我们将主要展示<math>~~

−

~~\alpha=1~~

−

~~</math>的结果，在下文中，我们将~~<math>

\Gamma_{\alpha=1}

</math>记作<math>

第185行：第184行：

</math>。它们还有相同的最大值<math>\log{N}</math>，最大值点对应于P是一个置换矩阵。

−

证明见参考文献<ref name="Zhangjiang" />附录A.3

+

证明见参考文献<ref name="Zhangjiang" />附录A.3。

因此当P是可逆的（置换矩阵）时，<math>

第197行：第196行：

</math>并不是EI的唯一最小点,对于任何满足<math>P_{i}=P_{j},\forall{i}\in{[1,N]}</math>的TPM都能使EI=0.其次EI的上限和下限都是<math>\log{\Gamma_{\alpha}}</math>的线性项。这一点由下面的定理证明。

−

~~定理4：对于任何TPM~~ P，其有效信息EI的上限为<math>\frac{2}{\alpha}\log{\Gamma_{\alpha}}</math>，下限为<math>

+

'''定理4：'''对于任何TPM P，其有效信息EI的上限为<math>\frac{2}{\alpha}\log{\Gamma_{\alpha}}</math>，下限为<math>

\log{\Gamma_{\alpha}}-\log{N}</math>.

第212行：第211行：

EI\sim\log\Gamma_{\alpha}.

</math>

−

===清晰因果涌现===

对于具有TPM P的给定马尔可夫链<math>

\chi

</math>，如果<math>r≡rank(P)<N</math>，则该系统中会出现明显的因果涌现。且因果涌现的程度为：

+

<math>

\Delta\Gamma_{\alpha}=\Gamma_{\alpha}\cdot(\frac{1}{r}-\frac{1}{N})

第269行：第267行：

===相似性===

−

~~在2.3节中，我们推导出EI的上界和下界分别是~~<math>\log{\Gamma_{\alpha}}

+

根据定理4，EI的上界和下界分别是<math>\log{\Gamma_{\alpha}}

−

</math>~~的线性项，并推测了两者的近似关系：~~<math>

+

</math>的线性项。由此还可以推测两者具有近似关系：<math>

EI\sim\log{\Gamma_{\alpha}}

−

</math>~~。接下来我们将通过数值模拟证明这一点。~~

+

</math>。下面通过数值模拟说明这一点。

−

~~我们在由三种不同方法生成的各种归一化TPM~~ 上比较了<math>

+

如图1 所示，在由三种不同方法生成的各种归一化的TPM 上比较了<math>

\log{\Gamma_{\alpha}}

−

</math>和 ~~EI：1）软化置换矩阵；2）软化退化矩阵；3）完全随机矩阵。这些生成模型的详情见附录 B。结果如图1 所示。如图1~~(a)、(b)和(c)~~所示，在所有这些例子中都观察到了正相关性，并且在N~~ ≫ 1 时，<math>

+

</math>和 EI：1）软化置换矩阵；2）软化退化矩阵；3）完全随机矩阵。图1(a)、(b)和(c)表明，在这些例子中都观察到了正相关性，并且在N ≫ 1 时，<math>

EI\sim\log{\Gamma_{\alpha}}.

</math>的近似关系得到了证实。在图1(a) 和 (b) 中可以明显观察到这种关系，但在图1(b) 中，由于覆盖了有限的<math>

\Gamma

−

</math>~~值区域，这种关系退化为近似线性关系。关于不同α的更多结果，请参阅附录B.1节。~~

+

</math>值区域，这种关系退化为近似线性关系。

−

~~我们还在图1~~(a)和(b)中用红色虚线表示了 EI 的上下限。不过，在图1（c）中，由于所有点都集中在一个小区域内，因此看不到理论边界线。根据经验，图1 中灰色断线所示的对数<math>\log{\Gamma_{\alpha}}

+

图1(a)和(b)中用红色虚线表示了 EI 的上下限。不过，在图1（c）中，由于所有点都集中在一个小区域内，因此看不到理论边界线。根据经验，图1 中灰色断线所示的对数<math>\log{\Gamma_{\alpha}}

−

</math>~~的EI上限更为严格。因此，我们推测~~ <math>EI\le\log{\Gamma_{\alpha}}

+

</math>的EI上限更为严格。因此可以推测 <math>EI\le\log{\Gamma_{\alpha}}

</math>这一新关系是成立的，但其严密性有待今后的工作来证明。

第300行：第298行：

[[文件:截屏2024-08-11 18.32.26.png|居中|缩略图|773x773px|图1|替代=]]

−

===不同 ===

+

===不同===

−

~~尽管已经发现 EI 和<math>~~

+

首先，EI 通过KL散度来量化每个行向量与P的平均行向量之间的差异。换句话说，EI衡量的是行向量之间的相似性。相反，<math>

−

~~\Gamma_{\alpha}~~

−

~~</math>之间存在深层联系，但这两个指标之间仍然存在差异。~~

−

首先，EI ~~通过KL散度来量化每个行向量与P的平均行向量之间的差异。换句话说，EI衡量行向量之间的相似性。相反，~~<math>

\Gamma_{\alpha}

−

</math>~~评估动态可逆性，特别是当~~<math>

+

</math>评估的是动力学可逆性，特别是当<math>

\alpha

<nowiki></math>接近 0 时，这与行向量之间的线性相互依赖性相关。虽然行向量的线性相互依赖性表明它们的相似性——这意味着两个相同的行向量是线性相关的，但反之则不一定成立。因此，<math>

第312行：第307行：

</math>不仅捕获了行向量之间的相似性，而且还捕获了P与动态可逆矩阵的接近度。相比之下，EI无法完成这个任务。

−

可以通过以下数值实验来验证这一点：我们可以通过将线性相关行向量与线性独立行向量混合来创建TPM，其中独立向量的数量或等级是受控参数。最初，我们生成r个独立的 one-hot ~~向量，然后使用与附录B.1中描述的相同方法软化这些行向量，软化程度由~~<math>

+

可以通过以下数值实验来验证这一点：可以通过将线性相关行向量与线性独立行向量混合来创建TPM，其中独立向量的数量或等级是受控参数。首先，生成r个独立的 one-hot 向量，然后软化这些行向量，软化程度由<math>

−

\sigma</math>~~确定。随后，我们通过将这些软化的~~ one-hot ~~向量与随机选择的线性系数线性组合来创建额外的行向量。然后我们量化~~<math>

+

\sigma</math>确定。随后，通过将这些软化的 one-hot 向量与随机选择的线性系数线性组合来创建额外的行向量。然后量化<math>

\Gamma</math>和 EI 之间的差异，结果如图1(d) 所示。

第352行：第347行：

</math>时有一个明显的分界点。图3（a-f）显示了另一个更复杂的布尔网络模型的明显因果涌现例子，该模型来自参考文献<ref name="Hoel2013" />，其中具有相同节点机制的6个节点可归类为3个超级节点，以显示因果涌现。原始布尔网络模型的相应TPM如图3(c)所示。奇异值频谱如图3（d）所示，其中有8个非零值。这个清晰因果涌现的度数为<math>

\Delta\Gamma=2.23

−

</math>。对因果涌现的判断与<ref name="Hoel2013" />~~相同。参考文献<ref name="Hoel2013" />和<ref name="Hoel2017" />中有关布尔网络的更多例子可参阅附录第 E.1 节。~~

+

</math>。对因果涌现的判断与<ref name="Hoel2013" />相同。

[[文件:截屏2024-08-14 11.13.54.png|居中|缩略图|776x776px|图3|替代=]]

===复杂网络===

第358行：第353行：

对因果涌现的量化可应用于复杂网络（图2(j-l)）。图2（j-l）显示了由随机块模型（SBM）生成的具有三组参数（内部或内部连接概率）的复杂网络的模糊因果涌现例子。TPM是通过对网络的邻接矩阵按每个节点的度进行归一化得到的。图2(j)显示了一个有 100 个节点和 5 个区块（社区）的示例网络，图2(k)显示了其奇异值频谱，在与区块数相同的横坐标上可以观察到一个明显的分界点<math>

(\epsilon=0.3,r_{\epsilon}=5)

−

</math>~~。我们可以确定，在这个网络模型中出现了模糊的因果涌现，程度为~~<math>

+

</math>。可以确定，在这个网络模型中出现了模糊的因果涌现，程度为<math>

\Delta\Gamma(0.3)=0.56

</math>。同图中还显示了两个由SBM生成的网络光谱，它们的大小和块数相同，但参数不同。

第364行：第359行：

如图3（g-i）所示，关于清晰因果涌现的定义可应用于元胞自动机，以发现其局部涌现结构。在这个例子里刻画了元胞自动机（编号40的基本一维元胞自动机）局部TPM的清晰因果涌现。局部TPM 由包括每个单元及其两个相邻单元的局部窗口获得。图3(h) 显示了这些局部 TPM 的奇异值的可能频谱，在这些频谱中可能出现也可能不出现清晰因果涌现。图3(i)用红点标记显示了所有单元和时间步长的清晰因果涌现分布（<math>

\Delta\Gamma

−

</math>~~）。我们还绘制了该自动机的原始演化作为背景。~~

+

</math>）。

==基于SVD分解的粗粒化策略==

−

~~虽然无需粗粒化也能定义和量化清晰或模糊的因果涌现现象，但需要对原始系统进行更简单的粗粒化描述，以便与~~ EI ~~得出的结果进行比较。因此，我们还提供了一种基于P的奇异值分解的简明粗粒度方法，以获得宏观层面的简化TPM。其基本思想是将~~ P 中的行向量 <math>

+

虽然无需粗粒化也能定义和量化清晰或模糊因果涌现，但需要对原始系统进行更简单的粗粒化描述，以便与 EI 得出的结果进行比较。因此，该理论提供了一种基于奇异值分解的粗粒度方法，以获得宏观层面的简化TPM。其基本思想是将 P 中的行向量 <math>

P_{i},\forall i \in [1,N]

</math>投影到<math>

第374行：第369行：

</math>不变。

===方法===

−

~~粗粒化方法包括五个步骤：1~~) 对TPM进行SVD分解；2)选择一个<math>

+

该粗粒化方法包括五个步骤：1) 对TPM进行SVD分解；2)选择一个<math>

\epsilon

</math>作为阈值来切断奇异值谱，并得到<math>r_{\epsilon}

第389行：第384行：

</math>组，得到投影矩阵<math>

\Phi</math>；以及 5) 利用<math>

−

\Phi</math>~~和P得到新的TPM，使总静态通量保持不变。有关此方法的详细信息及其工作原理，请参阅附录 D。~~

+

\Phi</math>和P得到新的TPM，使总静态通量保持不变。

===测试效果===

−

~~我们在图2~~ 和图3 ~~所示的所有示例中测试了我们的方法。首先，对于根据图2~~(d) 和 (g) 所示的相同布尔网络模型生成的两个 TPM，其粗 TPM 分别如图2(f)和(i)所示。从TPM和投影矩阵<math>

+

在图2 和图3 所示的所有示例中测试了此粗粒化方法。首先，对于根据图2(d) 和 (g) 所示的相同布尔网络模型生成的两个 TPM，其粗 TPM 分别如图2(f)和(i)所示。从TPM和投影矩阵<math>

\Phi</math>中可以读出宏观布尔网络模型（图2(c)）。值得注意的是，粗TPM中的<math>

\Gamma

第398行：第393行：

</math>几乎完全相同，这说明我们的方法在这种情况下是<math>

\Gamma

−

</math>~~保守的。我们进一步测试了参考文献<ref name="Hoel2013" />和<ref name="Hoel2017" />中的因果涌现例子，可以得到几乎相同的粗TPM。其次，如图3~~(e) 所示，用相同的粗粒度方法可以得到原始TPM（图3(a)）的缩小TPM，投影矩阵<math>

+

</math>保守的。其次，如图3(e) 所示，用相同的粗粒度方法可以得到原始TPM（图3(a)）的缩小TPM，投影矩阵<math>

\Phi</math>如 (f) 所示。如图3（b）所示，粗粒度布尔网络可以从简化的TPM和投影矩阵中读出。在本例中，虽然由于粗粒化过程中的信息损失，<math>

\Gamma

第415行：第410行：

</math>大幅上升。这表明在粗粒化过程中损失了大量信息，同时可以得到一个相对更有效的小型网络模型，具有更强的归一化近似动态可逆性。

==附录==

−

~~引理1：对于一个概率转移矩阵TPM~~ <math>P=(P_{1}，P_{2}，...,P_{N})^{T}</math>，其中<math>P_{i}</math>是第i个行向量，那么：

+

'''引理1：'''对于一个概率转移矩阵TPM <math>P=(P_{1}，P_{2}，...,P_{N})^{T}</math>，其中<math>P_{i}</math>是第i个行向量，那么：

<math>

第421行：第416行：

</math>

−

证明: 由于Pi是概率分布，因此它应满足归一化条件，可表示为：

+

'''证明:''' 由于Pi是概率分布，因此它应满足归一化条件，可表示为：

<math>

第434行：第429行：

</math>

−

~~引理2：对于TPM~~ P，我们可以用如下形式书写：

+

'''引理2：'''对于TPM P，我们可以用如下形式书写：

<math>P=(P_{1},P_{2},...,P_{N})^{T}

第456行：第451行：

其中r是矩阵P的秩。

−

证明:如果<math>

+

'''证明:'''如果<math>

P_{i}\cdot P_{i}=1

</math>，则<math>

第535行：第530行：

P^{T}=P^{-1}

</math>，且 P 必须是置换矩阵，并且所有奇异值都是1。这也符合引理2的陈述。

−

~~引理3：对于给定的TPM P ，任何<math>\alpha\in (0, 2) </math>的动态可逆性<math>\Gamma_{\alpha}</math>的度量小于或等于系统的大小 N 。~~

−

~~证明：因为~~<math>0\le\alpha\le 2</math>，所以<math>f(x)=x^{\alpha /2}</math>是凹函数，根据命题 4，我们有：

+

'''引理3：'''对于给定的TPM P ，任何<math>\alpha\in (0, 2) </math>的动态可逆性<math>\Gamma_{\alpha}</math>的度量小于或等于系统的大小 N 。

+

'''证明：'''因为<math>0\le\alpha\le 2</math>，所以<math>f(x)=x^{\alpha /2}</math>是凹函数，根据命题 4，我们有：

<math>

第567行：第563行：

</math>的特征值为<math>(|P_{1}|\cdot \sqrt{N},0,...,0)</math>。这直接导致了公式A49。

−

~~引理5：对于任何~~<math>x_{i}\ge 0,\forall i \in [1,N]</math>且<math>\alpha>0</math>,<math>f(\alpha)=(\sum_{i=1}^{N} x_{i}^{\alpha})^{1/\alpha}

+

'''引理5：'''对于任何<math>x_{i}\ge 0,\forall i \in [1,N]</math>且<math>\alpha>0</math>,<math>f(\alpha)=(\sum_{i=1}^{N} x_{i}^{\alpha})^{1/\alpha}

</math>是关于<math>\alpha</math>的单调递减函数。

第585行：第581行：

\sum_{i=1}^{N}(\frac{x_{i}^{\alpha}}{\sum_{j=1}^{N} x_{j}^{\alpha}})\cdot log x_{i}^{\alpha}\le log\sum_{i=1}^{N}(\frac{x_{i}^{\alpha}}{\sum_{j=1}^{N} x_{j}^{\alpha}}\cdot x_{i}^{\alpha}),

</math>

+

因此，结合等式A56 和 A57，我们有：

+

<math>\frac{\sum_{i=1}^{N} x_{i}^{\alpha}\cdot log x_{i}^{\alpha}}{\sum_{i=1}^{N} x_{i}^{\alpha}}\le log\sum_{i=1}^{N} x_{i}^{\alpha}.</math>

==参考文献==

GongMingkang

140

个编辑

更改

基于可逆性的因果涌现理论 (查看源代码)

2024年8月25日 (日) 16:34的版本

导航菜单

搜索