基于信息分解的因果涌现理论
简介
基于信息分解的因果涌现理论是一种用于理解和量化复杂系统中因果关系的理论框架。该理论通过信息分解的方法,将系统中多个目标变量与源变量之间的互信息分解为不重叠的信息原子,包括独特信息、冗余信息和协同信息。基于这些信息原子的内在特性,该理论提供了一种量化因果涌现的定义,即通过测量源和目标变量之间的正协同信息来确定因果涌现。
在这一理论中,因果涌现被定义为宏观层面动态的EI值大于微观层面动态的EI值的差异。这种理论不仅适用于离散马尔可夫链,还被扩展到具有连续变量的动力系统和复杂网络。此外,该理论还探讨了因果涌现与宏观状态变量的粗粒化策略之间的关系,以及如何通过最大化EI来确定粗粒化策略。
该理论的提出者之一,Fernando E. Rosas等人,通过这种方法不仅能够识别出数据中的因果涌现现象,还能够通过学习到的宏观动态来量化数据中的因果涌现。这为理解复杂系统中的因果关系提供了新的视角,并为机器学习和复杂系统的研究开辟了新的途径。
相关概念
信息熵与互信息
在信息论中,随机变量的熵(entropy,又称信息熵、信源熵、平均自信息量)量化了变量的不确定性。考虑到变量所有潜在状态的概率分布,该指标衡量了描述变量状态所需的预期信息量。
给定一个离散随机变量 [math]\displaystyle{ X }[/math],其取值于集合 [math]\displaystyle{ \mathcal{X\gt }[/math],且服从 [math]\displaystyle{ p\colon \mathcal{X}\to[0, 1] }[/math] 分布,则熵为 [math]\displaystyle{ \Eta(X) := -\sum_{x \in \mathcal{X}} p(x) \log p(x), }[/math] 其中 [math]\displaystyle{ \Sigma }[/math] 表示变量可能值的总和。[math]\displaystyle{ \log }[/math] 的底数(即 对数)的选择因应用不同而不同(通常采用2)。
与熵紧密相关的是互信息(mutual Information,MI)。对于两个随机变量,互信息度量了两者间相互依赖的程度(成对关系)。具体来说,互信息测量了一个随机变量由于已知另一个随机变量而减少的“信息量”。
离散随机变量 X 和 Y 的互信息可以计算为:
-
[math]\displaystyle{ \operatorname{I}(X; Y) = \sum_{y \in \mathcal Y} \sum_{x \in \mathcal X} { P_{(X,Y)}(x, y) \log\left(\frac{P_{(X,Y)}(x, y)}{P_X(x)\,P_Y(y)}\right) }, }[/math]
({{{3}}})
-
其中 [math]\displaystyle{ P_{(X,Y)\gt }[/math] 是 [math]\displaystyle{ X }[/math] 和 [math]\displaystyle{ Y }[/math] 的 联合概率 mass 函数,并且[math]\displaystyle{ P_X }[/math] 和 [math]\displaystyle{ P_Y }[/math] 分别是 [math]\displaystyle{ X }[/math] 和 [math]\displaystyle{ Y }[/math] 的 边际概率 质量函数。
部分信息分解
在信息熵与互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论描述的成对关系推广到多个变量的相互作用。
信息论可以通过相互信息 [math]\displaystyle{ I(X_1;Y) }[/math] 量化单个源变量 [math]\displaystyle{ X_1 }[/math] 对目标变量 [math]\displaystyle{ Y }[/math] 的信息量。如果我们现在考虑第二个源变量 [math]\displaystyle{ X_2 }[/math],经典信息论只能描述联合变量 [math]\displaystyle{ \{X_1,X_2\; }[/math] 与 [math]\displaystyle{ Y }[/math] 的相互信息,由 [math]\displaystyle{ I(X_1,X_2;Y) }[/math] 给出。但一般来说,了解各个变量 [math]\displaystyle{ X_1 }[/math] 和 [math]\displaystyle{ X_2 }[/math] 及其相互作用与 [math]\displaystyle{ Y }[/math] 究竟有何关系将会很有趣。
假设我们有两个源变量 [math]\displaystyle{ X_1, X_2 \in \{0,1\; }[/math] 和一个目标变量 [math]\displaystyle{ Y=XOR(X_1,X_2) }[/math]。在这种情况下,总互信息 [math]\displaystyle{ I(X_1,X_2;Y)=1 }[/math],而个体互信息 [math]\displaystyle{ I(X_1;Y)=I(X_2;Y)=0 }[/math]。也就是说,[math]\displaystyle{ X_1,X_2 }[/math] 关于 [math]\displaystyle{ Y }[/math] 的相互作用产生了 协同 信息,而这无法用经典信息论量轻易捕捉到。
部分信息分解进一步将源变量 [math]\displaystyle{ \{X_1,X_2\; }[/math] 与目标变量 [math]\displaystyle{ Y }[/math] 之间的互信息分解为四个部分:
[math]\displaystyle{ I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y) }[/math]
此处各个信息原子定义为
- [math]\displaystyle{ \text{Unq}(X_1;Y \setminus X_2) }[/math] 表示特有信息,是指每一个微观态变量单独给宏观态提供的信息:[math]\displaystyle{ X_1 }[/math] 具有的关于 [math]\displaystyle{ Y }[/math] 的“独特”信息,而 [math]\displaystyle{ X_2 }[/math] 中没有这些信息。
- [math]\displaystyle{ \text{Syn}(X_1,X_2;Y) }[/math] 表示协同信息,是指所有微观态 [math]\displaystyle{ X_1 }[/math] 和 [math]\displaystyle{ X_2 }[/math] 联合在一起给宏观态 [math]\displaystyle{ Y }[/math] 提供的信息。
- [math]\displaystyle{ \text{Red}(X_1,X_2;Y) }[/math] 表示冗余信息,是指两个微观态[math]\displaystyle{ X^1 }[/math]和[math]\displaystyle{ X^2 }[/math]重复地给宏观态 [math]\displaystyle{ Y }[/math] 的“冗余”信息。
其中 [math]\displaystyle{ \text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y) }[/math] , [math]\displaystyle{ \text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y) }[/math]。
晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一组冗余晶格。该晶格图包含了由源变量集合的所有非空子集所组合构成的所有(无重复变量的)集合,每一个这种集合对应了一个节点。以两变量 [math]\displaystyle{ \{X_1,X_2\; }[/math] 为例,集合 {1,2} 的所有非空子集包含 {1,2} {2} 和 {1},因此所能构成的无重复变量的集合包括 {{1,2}} {{2}} {{1}} 和 {{1}{2}}。如下图所示,这些anti-chain与上图的信息原子一一对应,既{{1,2}} 对应协同信息,{{2}} 和 {{1}} 对应特有信息,{{1}{2}}对应冗余信息。
整合信息分解
整合信息分解(Integrated Information Decomposition)是Rosas等[1]对于信息分解理论的进一步拓展。与部分信息分解关注一组变量与一个变量间的互信息不同,整合信息分解关注于两组变量间互信息的更细致划分。具体而言,该框架对两组变量间的互信息进行了两次不同方向的部分信息分解,分别是 1)将第一组的变量视为源变量,第二组的联合变量视作目标变量进行部分信息分解。2)反之,将第二组的变量视为源变量,第一组的联合变量视作目标变量进行部分信息分解。由于两次分解都是针对相同的两组变量间的互信息,因此我们得到了对相同互信息的两种划分方式,通过对这两种划分方式进行组合,我们便得到了更加细粒度的信息分解框架。
以两变量系统 [math]\displaystyle{ \{X_1,X_2\; }[/math] 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。
基本概念
因果涌现框架
Rosas等[2]从整合信息分解理论的视角出发,提出一种基于信息原子定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为[math]\displaystyle{ X_t\ (X_t^1,X_t^2,…,X_t^n ) }[/math],宏观状态是[math]\displaystyle{ V_t }[/math],它由微观态变量[math]\displaystyle{ X_t }[/math]粗粒化而来,因而是[math]\displaystyle{ X_t }[/math]的随附特征(Supervenience),[math]\displaystyle{ X_{t+1} }[/math]和[math]\displaystyle{ V_{t+1} }[/math]分别表示下一时刻的微观和宏观状态。
因果涌现定义
具体而言,作者基于系统上下时刻间互信息的整合信息分解后的信息原子提出了两种因果涌现的定义方法:
1)在指定了系统的宏观随附特征[math]\displaystyle{ V_t }[/math]时,当特有信息[math]\displaystyle{ Un(V_t;X_{t+1}| X_t^1,\ldots,X_t^n\ )\gt 0 }[/math],表示当前时刻的宏观态[math]\displaystyle{ V_t }[/math]能超过当前时刻的微观态[math]\displaystyle{ X_t }[/math]给下一时刻的整体系统[math]\displaystyle{ X_{t+1} }[/math]提供更多信息,这时候系统存在着因果涌现;
2)在未指定系统的宏观随附特征时,基于系统当前时刻的微观态[math]\displaystyle{ X_t }[/math]和下一时刻的微观态[math]\displaystyle{ X_{t+1} }[/math]之间的协同信息[math]\displaystyle{ Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )\gt 0 }[/math],若该协同信息大于零,则系统发生了因果涌现。
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态[math]\displaystyle{ V_t }[/math]的选择,其中方法二是方法一的下界。这是因为,[math]\displaystyle{ Syn(X_t;X_{t+1}\ ) ≥ Un(V_t;X_{t+1}| X_t\ ) }[/math]衡成立。所以,如果[math]\displaystyle{ Un(V_t;X_{t+1}| X_t\ ) }[/math]大于0,则系统必然会出现因果涌现。然而[math]\displaystyle{ V_t }[/math]的选择往往需要预先定义粗粒化函数,因此方法一无法回避Erik Hoel因果涌现理论的局限。而另外一种借助协同信息来判断因果涌现发生的方法同样存在不足,既协同信息的计算是非常困难的,存在着组合爆炸问题。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些弱点,因此,更加合理的量化方法有待被提出。
因果涌现充分指标
尽管提出了因果涌现的严格定量定义,但ID 可能很复杂且计算量很大,因此很难将该方法应用于实际系统。此外,PID 计算的不一致性导致因果涌现的定义依赖于特定的 PID 计算。为了解决这些问题,Rosas 放宽了因果涌现的计算,并根据因果解耦和向下因果关系的充分条件建立了识别标准。
具体来说,为了避免探索协同和冗余信息的具体量化方法,该标准通过反复减去冗余信息,使结果成为因果涌现的充分条件,这在一定程度上失去了通用性,但提高了可靠性。要使用的三个指标是:
[math]\displaystyle{ V_t }[/math]
应用案例
文[2]中作者列举了一个具体的例子(如上式),来说明什么时候发生因果解耦、向下因果以及因果涌现。该例子是一个特殊的马尔科夫过程,这里,[math]\displaystyle{ p_{X_{t+1}|X_t}(x_{t+1}|x_t) }[/math]表示动力学关系,[math]\displaystyle{ X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n }[/math]为微观态。该过程的定义是通过检查前后两个时刻的变量[math]x_t[/math]和[math]x_{t+1}[/math]的取值,也就是判断[math]x_t[/math]的所有维度模2求和是否与[math]x_{t+1}[/math]的第一个维度相同来确定下一时刻状态[math]x_{t+1}[/math]取不同数值概率的:如果不同,则概率取0;否则则再判断[math]x_t,x_{t+1}[/math]在所有维度上是否都有相同的模2和,如果两个条件都满足,则取值概率为[math]\gamma/2^{n-2}[/math],否则取值概率为[math](1-\gamma)/2^{n-2}[/math]。这里[math]\gamma[/math]为一个参数,[math]n[/math]为x的总维度。
实际上,如果[math]\displaystyle{ \sum_{j=1}^n x^j_t }[/math]是偶数或者0时[math]\displaystyle{ \oplus^n_{j=1} x^j_t:=1 }[/math],反之[math]\displaystyle{ \oplus^n_{j=1} x^j_t:=0 }[/math],因此[math]\displaystyle{ \oplus^n_{j=1} x^j_t }[/math]的结果是X整体序列的奇偶性,而第一个维度则可以看作是一个奇偶校验位。[math]\displaystyle{ \gamma }[/math]实际上表示X序列某两个位产生了突变,并且该突变却能够保证整体序列的奇偶性不变,以及序列的奇偶校验位也符合序列整体的实际奇偶性的概率。
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。[math]x_t^1[/math]是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
与同类框架的比较
与Hoel 的框架的比较
将 Hoel 的框架与 Rosas 的因果涌现量化框架进行比较,可以发现后者有几个明显的优势。首先,Rosas 的理论不需要预先确定的粗粒化方法,这使得它在数学上更加严谨和正式。其次,它对因果涌现进行了详细的分解,特别是向下因果关系和因果解耦。最后,它有效地避免了伪因果涌现的情况,即宏观变量仅依赖于微观变量中的独特或冗余信息。然而,也有一些缺点需要考虑。首先,为了获得完整的信息格,需要对所有变量组成进行系统迭代。此外,尽管使用了公式(38),但仍需要定义一个宏变量。不幸的是,作者没有提供任何方法来识别这样的变量。其次,所有互信息及其分解都是基于相关性而不是因果关系。讨论如何将因果因素(例如干预和反事实)纳入框架至关重要。最后,前面的讨论并没有解决根据给定的行为时间序列数据来识别系统中是否发生因果涌现的问题。为了解决这个问题,需要应用机器学习和人工智能等新兴技术。这些技术可以为检测和分析因果涌现提供有价值的工具和技术。
附录
参考文献
- ↑ P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).
- ↑ 2.0 2.1 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.