更改

第1行: 第1行:  
=== 简介 ===
 
=== 简介 ===
   −
基于信息分解的因果涌现理论是一种用于理解和量化复杂系统中因果关系的理论框架。该理论通过信息分解的方法,将系统中多个目标变量与源变量之间的互信息分解为不重叠的信息原子,包括独特信息、冗余信息和协同信息。基于这些信息原子的内在特性,该理论提供了一种量化因果涌现的定义,即通过测量源和目标变量之间的正协同信息来确定因果涌现。
+
基于信息分解的因果涌现理论是一种用于理解和量化复杂系统中因果关系的理论框架。该理论通过信息分解的方法,将系统中多个目标变量与源变量之间的互信息分解为不重叠的信息原子,包括独特信息、冗余信息和协同信息。基于这些信息原子的内在特性,该理论提供了一种量化因果涌现的定义,即通过测量源和目标变量之间的协同信息来确定因果涌现。该理论不仅能够识别出数据中的因果涌现现象,还能够基于特定的宏观动态来量化数据中的因果涌现。这为理解复杂系统中的因果关系提供了新的视角。
 
  −
在这一理论中,因果涌现被定义为宏观层面动态的EI值大于微观层面动态的EI值的差异。这种理论不仅适用于离散马尔可夫链,还被扩展到具有连续变量的动力系统和复杂网络。此外,该理论还探讨了因果涌现与宏观状态变量的粗粒化策略之间的关系,以及如何通过最大化EI来确定粗粒化策略。
  −
 
  −
该理论的提出者之一,Fernando E. Rosas等人,通过这种方法不仅能够识别出数据中的因果涌现现象,还能够通过学习到的宏观动态来量化数据中的因果涌现。这为理解复杂系统中的因果关系提供了新的视角,并为机器学习和复杂系统的研究开辟了新的途径。
  −
 
  −
 
      
=== 相关概念 ===
 
=== 相关概念 ===
第13行: 第7行:  
==== 信息熵与互信息 ====
 
==== 信息熵与互信息 ====
   −
在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。
+
在信息论中,随机变量的'''熵'''(entropy,又称'''信息熵'''、'''信源熵'''、'''平均自信息量''')量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。[[文件:Mutual Info.png|替代=|左|无框]]
    
给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math>  的底数(即 对数)的选择因应用不同而不同(通常采用2)。
 
给定一个离散随机变量 <math>X</math>,其取值于集合 <math>\mathcal{X></math>,且服从 <math>p\colon \mathcal{X}\to[0, 1]</math> 分布,则熵为 <math display="block">\Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x),</math> 其中 <math>\Sigma</math> 表示变量可能值的总和。<math>\log</math>  的底数(即 对数)的选择因应用不同而不同(通常采用2)。
   −
与熵紧密相关的是'''互信息'''(mutual Information,MI)。对于两个随机变量,互信息度量了两者间相互依赖的程度(成对关系)。具体来说,互信息测量了一个随机变量由于已知另一个随机变量而减少的“信息量”。
+
与熵紧密相关的是'''互信息'''(mutual Information,MI)。对于两个随机变量,互信息度量了两者间相互依赖的程度(成对关系)。具体来说,互信息测量了一个随机变量由于已知另一个随机变量而减少的“信息量”。离散随机变量 X 和 Y 的互信息可以计算为:
 
  −
离散随机变量 X 和 Y 的互信息可以计算为:
      
{{NumBlk|2=<math>
 
{{NumBlk|2=<math>
第27行: 第19行:     
其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 联合概率 ''mass'' 函数,并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 边际概率 质量函数。
 
其中 <math>P_{(X,Y)></math> 是 <math>X</math> 和 <math>Y</math> 的 联合概率 ''mass'' 函数,并且<math>P_X</math> 和 <math>P_Y</math> 分别是 <math>X</math> 和 <math>Y</math> 的 边际概率 质量函数。
[[文件:Mutual Info.png|居中|缩略图]]
  −
   
==== 部分信息分解 ====
 
==== 部分信息分解 ====
在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。
+
在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论所关注的成对关系拓展到多个变量间的复杂相互作用。
 
  −
信息论可以通过相互信息 <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们现在考虑第二个源变量 <math>X_2</math>,经典信息论只能描述联合变量 <math>\{X_1,X_2\></math> 与 <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出。但一般来说,了解各个变量 <math>X_1</math> 和 <math>X_2</math> 及其相互作用与 <math>Y</math> 究竟有何关系将会很有趣。
     −
假设我们有两个源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了 协同 信息,而这无法用经典信息论量轻易捕捉到。
+
在两变量场景下,信息论可以通过相互信息 <math>I(X_1;Y)</math> 量化单个源变量 <math>X_1</math> 对目标变量 <math>Y</math> 的信息量。如果我们考虑加入第三个变量 <math>X_2</math>并探讨其中某一变量与另两个变量的关系时,经典信息论则只能描述联合变量 <math>\{X_1,X_2\></math> <math>Y</math> 的相互信息,由 <math>I(X_1,X_2;Y)</math> 给出,而无法深入探究 <math>X_1</math> <math>X_2</math> 及其相互作用与 <math>Y</math> 间存在何种关系。
   −
部分信息分解进一步将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:
+
这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 <math>X_1, X_2 \in \{0,1\></math> 和一个通过对源变量进行抑或操作所得到的目标变量 <math>Y=XOR(X_1,X_2)</math>。在这种情况下,总互信息 <math>I(X_1,X_2;Y)=1</math>,而个体互信息 <math>I(X_1;Y)=I(X_2;Y)=0</math>。也就是说,<math>X_1,X_2</math> 关于 <math>Y</math> 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵量轻易捕捉到。
   −
<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>
+
对于更加一般的三变量场景而言,部分信息分解将源变量 <math>\{X_1,X_2\></math> 与目标变量 <math>Y</math> 之间的互信息分解为四个部分:[[文件:PID Venn.png|替代=|左|无框]]<math>I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y)</math>
    
此处各个信息原子定义为
 
此处各个信息原子定义为
第44行: 第32行:  
*<math>\text{Syn}(X_1,X_2;Y)</math> 表示[[协同信息]],是指所有微观态 <math>X_1</math> 和 <math>X_2</math> 联合在一起给宏观态 <math>Y</math> 提供的信息。
 
*<math>\text{Syn}(X_1,X_2;Y)</math> 表示[[协同信息]],是指所有微观态 <math>X_1</math> 和 <math>X_2</math> 联合在一起给宏观态 <math>Y</math> 提供的信息。
 
*<math>\text{Red}(X_1,X_2;Y)</math> 表示[[冗余信息]],是指两个微观态<math>X^1 </math>和<math>X^2 </math>重复地给宏观态 <math>Y</math> 的“冗余”信息。
 
*<math>\text{Red}(X_1,X_2;Y)</math> 表示[[冗余信息]],是指两个微观态<math>X^1 </math>和<math>X^2 </math>重复地给宏观态 <math>Y</math> 的“冗余”信息。
其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。[[文件:PID Venn.png|居中|缩略图]]晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些anti-chain与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。
+
其中 <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y)</math> , <math>\text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y)</math>。[[文件:Lattice of 2.png|替代=|左|无框]]信息分解除了能够被韦恩图所直观的呈现,更常被表示为晶格图的形式以在更多变量的情况下维持简洁的结构。晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 <math>\{X_1,X_2\></math> 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 <nowiki>{{1,2}}</nowiki> <nowiki>{{2}}</nowiki> <nowiki>{{1}}</nowiki> 和 <nowiki>{{1}{2}}</nowiki>。如下图所示,这些反链(anti-chain)与上图的信息原子一一对应,既<nowiki>{{1,2}}</nowiki> 对应协同信息,<nowiki>{{2}}</nowiki> 和 <nowiki>{{1}}</nowiki> 对应特有信息,<nowiki>{{1}{2}}</nowiki>对应冗余信息。
[[文件:Lattice of 2.png|居中|缩略图]]
        第52行: 第39行:     
以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。
 
以两变量系统 <math>\{X_1,X_2\></math> 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。
[[文件:Lattice Phi.png|居中|缩略图|576x576像素]]
+
[[文件:Lattice Phi.png|576x576像素|替代=|左|无框]]
      第59行: 第46行:  
Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>从整合信息分解理论的视角出发,提出一种基于信息原子定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n )
 
Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>从整合信息分解理论的视角出发,提出一种基于信息原子定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n )
 
  </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。
 
  </math>,宏观状态是<math>V_t </math>,它由微观态变量<math>X_t </math>粗粒化而来,因而是<math>X_t </math>的随附特征(Supervenience),<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。
[[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|居中|300x300像素]]
+
[[文件:向下因果与因果解耦2.png|链接=https://wiki.swarma.org/index.php/%E6%96%87%E4%BB%B6:%E5%90%91%E4%B8%8B%E5%9B%A0%E6%9E%9C%E4%B8%8E%E5%9B%A0%E6%9E%9C%E8%A7%A3%E8%80%A62.png|替代=|300x300像素|左|无框]]
     
2,435

个编辑