因果效应度量

因果效应(Causal Effect)是指当一个变量X发生变化时,它会导致另一个变量Y也发生变化。那么,因果效应强度就是量化X的变化对Y有多大的影响。它是一种客观的,建立在数学的基础之上的量化因果关系强度的指标。 因果关系是指一个事件(原因)与另一个事件(结果)之间存在的导致与被导致的关系,强调的是事件之间的逻辑联系和先后顺序,是一种定性的、结构性的关系描述。比如,“吸烟”与“肺癌”之间存在因果关系,即吸烟是导致肺癌的一个原因。 因果效应则侧重于描述原因对结果产生影响的具体程度或效果,是对因果关系在数量或程度上的量化表达,具有定量的性质。例如,某项统计显示长期吸烟的人群患肺癌的风险比不吸烟的人高80%,这80%就是吸烟对患肺癌这一结果的因果关系程度的一种量化。因果效应能够为因果关系提供更具体、更精确的信息,帮助人们更深入地理解因果关系的本质和特征。通过因果效应的估计,可以明确原因变量对结果变量影响的具体程度和方式,使因果关系从定性的认知上升到定量的分析。

历史渊源

John Locke在他1690年发表的著作《人类理解论》中首次正式提出了因和果的概念:把产生观念的事物叫做原因,把所产生的东西叫做结果。在18世纪David Hume进一步发展了这个概念[1],提出因果不是事实之间的概念,而是经验之间的习惯性联想。他强调判断因果关系的三条准则:空间邻近性、时间连续性、恒常连结性。

19世纪末皮尔逊(Karl Pearson)从高尔顿(Francis Galton)那里学会并发展了建立事物之间相关性的方法[2],通过一个特定的数值(皮尔逊相关系数)来简单直观地告诉人们两个事物(或变量)之间在变化趋势上的关联紧密程度,是朝着相同方向变化还是相反方向变化,以及这种变化的相关程度到底有多大。并认为相关性足以说明事物之间的联系,完全不需要在数学中定义因果关系,因果关系只是相关性一个特例。随着这种观点在学术界的流行,因果以及因果关系的研究被压制了将近半个世纪。

现代因果关系研究的新曙光出现在20世纪20年代,其代表人物是美国科学家杰西·内曼(Jery Neyman),内曼研究了随机对照试验(RCT),并且指出从随机对照试验中发现因果关系的可能性和必要性,并提出了“潜在结果”的思想[3],潜在结果的思想是对于每个人或事物在面对不同情况(比如做与不做某件事、接受不同处理等)时都有相应的可能结果,但通常我们只能看到实际发生情况对应的那个结果,其他没发生情况对应的结果就是潜在的,我们可以通过一些方法来推断这些潜在结果以及不同情况带来的影响差异。由于研究结果是用波兰文发表的,所以当时并未引起关注。内曼关于“潜在结果”的思想,被唐纳德·鲁宾(DonaldRubin)于1972年再次发现[4],并且加以丰富和提升,提出了形式化的“鲁宾因果模型”或称“潜在结果模型”,它是当前因果分析的重要模型之一,在这里鲁宾也首次正式提出和定义了因果效应的概念。

克莱夫・格兰杰(Clive W.J. Granger)于 1969 年提出了一种用于分析基于时间序列的变量之间因果关系的方法[5],它的定义是在时间序列情形下,对于两个变量X、Y,若在包含了变量X、Y的过去信息的条件下,对变量Y的预测效果要优于只单独由Y的过去信息对Y进行的预测效果,即变量X的过去信息有助于解释变量Y的变化,则认为变量X是导致变量Y的格兰杰原因,X和Y的这种关系就被称为格兰杰因果关系。

朱迪亚・珀尔(Judea Pearl)在 1995 年提出的结构因果模型(Structural Causal Model,SCM)[6],这是一种以有向无环图结构方程为基础,通过清晰描绘变量间因果结构、进行反事实推理和因果效应估计的因果分析工具,可以用来帮助人们理解和分析变量之间因果关系,广泛应用于多个领域。珀尔在此基础上又提出了因果分析框架[7],为因果分析提供了一套系统的、形式化的理论和方法体系,将因果关系划分为关联、干预反事实三个层级,使得因果推理更加精确和实用。

Patrick Suppes在1970年的著作[8]中首次将概率引入因果分析,提出如果变量X是变量Y的原因须满足X先于Y(时序性)和X能提升Y发生的概率这两个条件。Suppes的框架为后续研究奠定了基础,但未严格区分关联与因果。Eells 在1991年的著作[9]系统论证了因果关系的概率本质,强调因果解释需结合背景条件。Patricia Cheng的因果归因理论(Causal Attribution Theory)[10]在此基础上排除了背景条件的干扰,能够得到X独立于背景因素时对Y的净因果效应,使其更接近真实的因果效应。朱迪亚・珀尔通过结构因果模型(SCM)和Do演算将概率方法形式化[7],解决了混杂偏倚问题。

Giulio Tononi 和 Olaf Sporns 在2003年提出有效信息 (EI)的概念[11],这一方法继承了SCM对干预的重视,它通过干预实验来排除其他因素的影响,通过比较干预前后状态之间的互信息来量化因果效应。到了2013年,Giulio Tononi的学生Erik Hoel等人将有效信息这个概念进一步提炼出来,用来度量马尔科夫动力学的因果效应强度,并提出了因果涌现理论[12]。传统的EI主要被用于具有离散状态的马尔科夫链上,到了2022年,张江刘凯威结合因果几何理论探讨了EI在连续状态变量的函数映射上的一般形式[13][14][15]。然而,它存在着一个缺陷,由于实数域上变量的均匀分布严格讲是定义在无穷大空间上的,为了避免遭遇无穷大,EI的计算中就会带着一个参数[math]L[/math],表示均匀分布的区间范围。为了避免这个缺陷,也为了在不同粗粒化程度上比较EI,作者们便提出了维度平均EI的概念,维度平均EI也可以看作是一种归一化的EI,即Eff。

2024年张江团队在最新的讨论动力学可逆性因果涌现的文章中,又指出EI实际上是对底层马尔科夫状态转移矩阵可逆性的一种刻画,于是尝试直接刻画这种马尔科夫链的动力学可逆性以替代EI[16]。它的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵,通过对它进行奇异值分解,将奇异值的[math]\displaystyle{ \alpha }[/math]次方的和定义为马尔科夫动力学的可逆性度量([math]\displaystyle{ \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha} }[/math]),这里[math]\sigma_i[/math]为奇异值。该指标与有效信息具有高度的相关性,也可以用于刻画动力学的因果效应强度。

前提假设

在现代的因果关系研究中[17],人们都是使用数学语言将因果关系量化为因果效应,这样才能把对因果的研究建立在一个客观和科学的基础之上。数学的推理都是从公理或基本假设出发的,因此因果效应的度量也有着它的前提和基本假设。

变量处于同一个尺度

自然界的现象很多,从量子到宇宙,从微观到宏观,就算同一个现象也可以具有不同量级的尺度视角。一般而言,因果关系是指同尺度下不同现象之间的关系。例如对于疾病的研究我们一般是从分子水平或者病菌水平考察与疾病的关系,尽管从根本上说疾病总是与物质的量子行为有关,但是因果关系不会从这个角度来研究,这种在同尺度下比较的相互关系奠定了因果关系的基石,同样道理,因果效应的度量也是在同尺度下的两个变量之间因果关联强度的度量。

共因原理

共因原理(common cause principle,CCP):如果两个可观察变量X和Y在统计上是关联的,那么就存在一组变量U(也可能是X或者Y),它会对这两个变量产生共同的影响。这一条也经常被解释为“每一个关联关系背后都有某种因果关系”,如“冰淇淋销量高-犯罪率高”的例子,在冰淇淋销量高和犯罪率高关联的背后,一定有第三个变量,即气温,使得在表观层面上两个毫无瓜葛的现象产生了强烈的关联,气温就是冰淇淋销量和犯罪率之间的共同原因。共因原理的理论基础是拉普拉斯提出的“决定论”以及爱因斯坦等提出的“隐变量理论”,这两个理论认为因果关系是具备确定性的,因必然导致果,其中出现的一些误差或者不确定性是由未知变量(隐变量)造成的。因果效应的度量也遵循共因原理,共因原理也是不同原因和结果变量之间因果效应的大小存在差异的原因之一。

独立因果机制

独立因果机制(independent causal mechanism,ICM):它是指不同的因果关系之间相互独立的机制。假设我们有变量X导致变量Y,以及变量Z导致变量W,这两种因果关系之间的变量XY和ZW是相互独立的,无论XY的因果关系怎么变化都不会影响ZW之间的因果关系。这意味着因果关系具有稳健性、不变性和可重复性。例如太阳每天都会升起落下,这个因果关系就很稳定,不会因为今天路上车多了,太阳升起落下的规律就变了。因此,ICM允许把样本中的每个个体的因果关系看作独立事件,从而降低了计算因果效应需要的样本数量、模型规模和建模时间。例如在医学中,一项手术对于某个患者的治疗效果不会因为其他患者接受手术的情况而变化,一些细心的读者可能会想到,有些患者在看到别的手术出现不良效果时情绪产生波动、从而影响了自身的手术效果,在这种情况下,所考虑的原因变量要增加一个,即情绪。在新的变量环境下,手术的效果还是独立的(当然与不考虑情绪是有区别的)。不考虑患者的情绪,手术效果完全取决于手术本身。考虑患者的情绪,则手术效果取决于手术和情绪。在这两种情况下,系统都是独立的,不受外部影响的。也就是说,一项治疗措施对一个患者的效果,只和这个患者自身的情况有关,和其他患者以及非患者都没关系。所以,我们在研究时,只需要收集和这个患者有关的数据就可以了。

基于维纳思想的因果效应度量

在现代社会,数据易于获取且数量庞大。此外,为了推断某些类型的因果关系,进行干预实验可能会很困难或根本不可能。因此,越来越多的研究正在使用观察性的,基于时间序列数据的因果效应度量方法[18]。它们都是根据诺伯特·维纳(Norbert Wiener)提出的思想[19]:“如果一个变量[math]\displaystyle{ X }[/math]导致另一个变量[math]\displaystyle{ Y }[/math],那么[math]\displaystyle{ X }[/math]的过去值应该包含有助于预测[math]\displaystyle{ Y }[/math]的信息,且这些信息超出了仅包含在[math]\displaystyle{ Y }[/math]过去值中的信息”。该思想是一种从时间序列数据度量因果效应的简单而优雅的方法。

下面的三种方法都是基于此思想,下面阐述每种方法背后的思想。

如果包含[math]\displaystyle{ X }[/math]的过去值: [math]\displaystyle{ Y }[/math]的预测能力提高,那么从[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]存在非零的格兰杰因果关系。
[math]\displaystyle{ Y }[/math]的不确定性降低,那么从[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]存在非零的转移熵。
[math]\displaystyle{ Y }[/math]的动态复杂性降低/提高,那么从[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]存在非零的压缩复杂性意义下的因果关系。

格兰杰因果

格兰杰因果(Granger Causality,GC)是一种基于预测的因果关系统计概念。这是第一个直接基于维纳思想的方法,因此它通常被称为维纳 - 格兰杰因果关系[20]。要检查一个过程[math]\displaystyle{ X }[/math]是否格兰杰导致另一个过程[math]\displaystyle{ Y }[/math],需要为[math]\displaystyle{ Y }[/math]建模两个单独的自回归过程以供考虑:

[math]\displaystyle{ Y(t)=\sum_{\tau = 1}^{\infty}(a_{\tau}Y(t - \tau))+\sum_{\tau = 1}^{\infty}(c_{\tau}X(t - \tau))+\varepsilon_{c} }[/math]

 

 

 

 

(1)

[math]\displaystyle{ Y(t)=\sum_{\tau = 1}^{\infty}(b_{\tau}Y(t - \tau))+\varepsilon }[/math]

 

 

 

 

(2)

其中[math]\displaystyle{ t }[/math]表示任意时间点,[math]\displaystyle{ a_{\tau} }[/math][math]\displaystyle{ b_{\tau} }[/math][math]\displaystyle{ c_{\tau} }[/math]是滞后[math]\displaystyle{ \tau }[/math]时的系数,[math]\displaystyle{ \varepsilon_{c} }[/math][math]\displaystyle{ \varepsilon }[/math]是两个模型中的误差项。假设[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]是协方差平稳的,[math]\displaystyle{ X }[/math]是否导致[math]\displaystyle{ Y }[/math]可以通过预测误差方差的对数比来判断:

[math]\displaystyle{ F_{X \to Y}=\ln\frac{\varepsilon}{\varepsilon_{c}} }[/math]

 

 

 

 

(3)

这个度量被称为[math]\displaystyle{ F }[/math] - 统计量。如果由方程(1)表示的模型比方程(2)更适合[math]\displaystyle{ Y(t) }[/math],那么[math]\displaystyle{ var(\varepsilon_{c})\lt var(\varepsilon) }[/math][math]\displaystyle{ F_{X \to Y} }[/math]将大于0,这表明[math]\displaystyle{ X }[/math]格兰杰导致[math]\displaystyle{ Y }[/math]。尽管这种因果关系概念使用自回归模型,但由于模型的通用性质对潜在机制做了最小假设,因此该方法广泛用在基于观察性数据的因果效应度量中。

即如果[math]F>0[/math],则存在X到Y的因果关系,否则不存在,且F的大小即因果效应度量。

转移熵

转移熵(Transfer Entropy,TE)量化过程[math]\displaystyle{ X }[/math]对过程[math]\displaystyle{ Y }[/math]的转移概率的影响[21]。它衡量,假设变量[math]\displaystyle{ Y }[/math]的当前状态[math]\displaystyle{ y_{n + 1} }[/math]与变量[math]\displaystyle{ X }[/math]的过去状态[math]\displaystyle{ x_{n}^{(l)} }[/math]独立时(即假设其分布为[math]\displaystyle{ q = p(y_{n + 1}|y_{n}^{(k)}) }[/math]而不是[math]\displaystyle{ p(y_{n + 1}|y_{n}^{(k)}, x_{n}^{(l)}) }[/math])需要付出的信息量的多少。这里[math]\displaystyle{ k }[/math][math]\displaystyle{ l }[/math]分别表示[math]\displaystyle{ Y }[/math][math]\displaystyle{ X }[/math]的过去状态的数量,过程[math]\displaystyle{ Y }[/math]的任何状态[math]\displaystyle{ y_{n + 1} }[/math]的概率分布依赖于这些过去状态。数学上,

[math]\displaystyle{ TE_{X \to Y}=\sum_{y, x}(p(y_{n + 1}, y_{n}^{(k)}, x_{n}^{(l)})\log\frac{p(y_{n + 1}, y_{n}^{(k)}, x_{n}^{(l)})}{p(y_{n + 1}, y_{n}^{(k)})}) }[/math]

 

 

 

 

(4)

如果[math]\displaystyle{ Y }[/math][math]\displaystyle{ X }[/math]是独立过程,那么对于所有[math]\displaystyle{ n }[/math][math]\displaystyle{ k }[/math][math]\displaystyle{ l }[/math][math]\displaystyle{ n, k, l \in \mathbb {N} }[/math][math]\displaystyle{ p(y_{n + 1}, y_{n}^{(k)}, x_{n}^{(l)}) = p(y_{n + 1}, y_{n}^{(k)}) }[/math],因此上述状态数量将为零。直观地说,[math]\displaystyle{ TE_{X \to Y} }[/math]捕捉了从过程[math]\displaystyle{ X }[/math]到过程[math]\displaystyle{ Y }[/math]的信息流。一般来说,[math]\displaystyle{ TE_{X \to Y} \neq TE_{Y \to X} }[/math]

压缩复杂性因果

像GC和TE这样的度量假设时间序列数据中“原因”和“结果”样本具有内在的可分离性,因此只能估计因果关系之梯中的第一层级的关联因果关系。然而,很多时候,原因和结果可能在测量数据块(Chunks,指时间序列中连续的一段数据)或单个测量值中同时存在。这可能是动力学过程的固有性质,或者是由于采样尺度与因果动力学的时空尺度不同(例如,在测量采集期间)导致的结果。在这种情况下,关联因果关系度量是不合适的。例如城市里某条街道的车流量(时间序列 X)和附近停车场的空位数量(时间序列 Y),它们随时间变化的数据就形成了时间序列数据。假如先有车流量增加这个 “原因”(X 中的某些数据变化),之后才会有停车场空位减少这个 “结果”(Y 中的某些数据变化),车流量和停车场空位数量之间有某种统计相关性,而且能很明显地把它们在数据里区分出来,那就说明这些样本具有内在的可分离性。

还是拿刚才的例子来说,如果我们测量车流量和停车场空位数量的时间间隔不合适,或者这个城市交通状况很复杂,比如刚好在测量的这段时间里,有大型的活动导致很多车辆同时到达和停放,那在同一时间段的测量数据块里,或者甚至在某一个测量时刻的数据中,可能既包含了车流量增加这个 “原因” 的信息,又包含了停车场空位减少这个 “结果” 的信息 ,它们就重叠在一起了。这时候也就没办法确定到底是车流量变化导致了停车场空位变化,还是有其他因素同时影响了两者。在这种情况下,使用像GC和TE这样的度量方法是不合适的。

压缩复杂性因果关系(Compression Complexity Causality,CCC)是2019年提出的一种因果关系度量[22],它不做关联因果关系度量(如GC和TE)所做的可分离性假设。CCC通过假想的“干预”来评估[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]的因果影响:假设[math]\displaystyle{ X }[/math]导致[math]\displaystyle{ Y }[/math],它会将[math]\displaystyle{ X }[/math]的过去信息插入[math]\displaystyle{ Y }[/math]的时间序列中,观察[math]\displaystyle{ Y }[/math]的动态复杂性如何变化。当无法对变量实施真正的干预时,这种假想的“干预”是对数据能做的最好操作。因此,CCC属于因果关系之梯的第二层级(干预因果关系)。

在CCC的情况下,时间序列数据块的压缩复杂性是基于压缩难度(Effort to Compress,ETC)来计算的[23]。ETC的计算基于无损压缩算法(如Lempel-Ziv-Welch, LZ77),直观的理解就是越复杂的时间序列(如随机噪声)越难被压缩,所需的计算步骤(或迭代次数)越多;而简单的序列(如周期性信号)更容易压缩,所需难度更小,ETC的值就是压缩过程中所有迭代步骤的操作次数总和。

为了将CCC从[math]\displaystyle{ X }[/math]估计到[math]\displaystyle{ Y }[/math],我们计算[math]\displaystyle{ CC(\Delta Y|Y_{past}) }[/math]——时间序列[math]\displaystyle{ Y }[/math]的当前数据窗口[math]\displaystyle{ \Delta Y }[/math]在其历史信息[math]\displaystyle{ Y_{past} }[/math]条件下的动态复杂性,CC为条件压缩复杂性。将其与[math]\displaystyle{ CC(\Delta Y|Y_{past}, X_{past}) }[/math]——[math]\displaystyle{ \Delta Y }[/math][math]\displaystyle{ Y }[/math][math]\displaystyle{ X }[/math]的过去[math]\displaystyle{ (Y_{past}, X_{past}) }[/math]共同条件下的动态复杂性进行比较。数学上,

[math]\displaystyle{ CC(\Delta Y|Y_{past}) = ETC(Y_{past}+\Delta Y)-ETC(Y_{past}) }[/math]

 

 

 

 

(5)

[math]\displaystyle{ CC(\Delta Y|Y_{past}, X_{past}) = ETC(Y_{past}+\Delta Y, X_{past}+\Delta Y)-ETC(Y_{past}, X_{past}) }[/math]

 

 

 

 

(6)

[math]\displaystyle{ CCC_{X_{past} \to \Delta Y}=CC(\Delta Y|Y_{past})-CC(\Delta Y|Y_{past}, X_{past}) }[/math]

 

 

 

 

(7)

其中:

公式(5)是为了计算单独用[math]\displaystyle{ Y }[/math]的历史信息[math]\displaystyle{ Y_{past} }[/math]预测当前窗口[math]\displaystyle{ \Delta Y }[/math]时,所需的条件压缩复杂性增量;

公式(6)是为了计算同时用[math]\displaystyle{ Y }[/math][math]\displaystyle{ X }[/math]的历史信息预测[math]\displaystyle{ \Delta Y }[/math]时,所需的条件压缩复杂性增量。

公式(7)是为了计算[math]\displaystyle{ X }[/math]的历史信息对降低[math]\displaystyle{ Y }[/math]当前数据窗口ΔY压缩复杂性的贡献。

在整个时间序列长度上,随着窗口[math]\displaystyle{ \Delta Y }[/math]以步长[math]\displaystyle{ \delta }[/math]滑动,从[math]\displaystyle{ Y }[/math][math]\displaystyle{ X }[/math]的平均CCC估计为:

[math]\displaystyle{ CCC_{X \to Y}=\overline{CCC}_{X_{past} \to \Delta Y}=\overline{CC}(\Delta Y|Y_{past})-\overline{CC}(\Delta Y|Y_{past}, X_{past}) }[/math]

 

 

 

 

(8)

总结一下,动态复杂性指复杂系统在时间演化中表现出的不可预测性和非线性行为,是一种定性描述,压缩复杂性是动态复杂性的一种量化指标,通过条件压缩复杂性的差值计算,条件压缩复杂性通过ETC计算。

基于潜在结果思想的因果效应度量

潜在结果思想是指给定一个研究对象和一系列可能的干预措施,把研究对象在不同干预措施下的结果定义为不同的“潜在结果”。由于在实际中我们无法同时观察到同一个对象在接受干预和不接受干预时的结果,所以这些潜在结果是理论上可能发生但实际未被观察到的结果,也被称为反事实结果。这个思想是内曼(Jery Neyman)在1924年的一篇论文[3]中首次提出的,并讨论了利用随机对照试验(Randomized Controlled Trial,RCT)和重复抽样推断的统计方法解决不同的潜在结果无法同时观察和比较的问题,为因果效应的研究提供了数学框架。鲁宾在1970年代完善了潜在结果思想,并系统化的提出了鲁宾因果模型(Rubin Causal Model, RCM),将潜在结果思想泛化到非实验场景,仅通过观察性数据就可以研究各变量间的因果效应。

个体因果效应

对于每个个体,为简单起见、假设所有的因素都只有两个状态 0 和 1,如用 [math] X [/math] 表示是否服药,[math] X = 0 [/math] 表示不服药,[math] X = 1 [/math] 表示服药,则 [math] Y (1)[/math] 表示个体服药时的结果,[math] Y (1)=1 [/math] 表示个体服药而痊愈。 [math] Y (0)[/math] 表示个体不服药时的结果,[math] Y (0)=1 [/math] 表示个体不服药而痊愈。 实际中只能观察到其中一个结果,另一个为潜在结果。

个体因果效应(Individual Causal Effect,ICE)定义为上述两种结果之间的差异:

[math]\displaystyle{ \text{ICE} = Y(1)-Y(0) }[/math]

但由于无法同时观测到两者,ICE通常不可直接计算。所以就需要利用随机对照试验(Randomized Controlled Trial,RCT)和重复抽样推断的统计方法得到平均因果效应。

平均因果效应

若 [math]\mathbb{E}[Y (0)][/math] 表示不服药的期望痊愈率,[math]\mathbb{E}[Y (1)][/math] 表示服药的期望痊愈率。这时,总体的平均因果效应(Average Causal Effect,ACE)定义为:

[math]\displaystyle{ \text{ACE} = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)] }[/math]

记作 [math]\text {ACE}(X\rightarrow Y)[/math] 。

可忽略性假设

如果观察性数据中既有病人不服药的情况,也有服药的情况,同时也包括其他一些变量,例如病人的生理指标(血压、肝脏等)和自然属性(性别、年龄等),这些变量称为协变量,协变量虽然不会直接决定病人的痊愈,但是会影响病人的痊愈。

如果存在协变量集合[math]\displaystyle{ Z=\left\{Z_{1},Z_{2},\cdots,Z_{k}\right\} }[/math],使得对于任意的取值[math]\displaystyle{ z=(z_1,z_2,\cdots,z_k),z_i \in Z_i }[/math],不服药的痊愈率[math]\displaystyle{ P(Y(0)=1|z) }[/math]和服药的痊愈率[math]\displaystyle{ P(Y(1)=1|z) }[/math]都与服药与不服药的人数比例无关,即服药与不服药的痊愈率不依赖人群的服药分布[math]\displaystyle{ X }[/math]。用统计的语言说,就是在条件[math]\displaystyle{ Z }[/math]下,联合分布[math]\displaystyle{ \{Y(0), Y(1)\} }[/math]独立于[math]\displaystyle{ X }[/math]的分布,即:

[math]\displaystyle{ \{Y(0), Y(1)\}\perp X|Z }[/math]

[math]\displaystyle{ \perp }[/math]表示独立,则该公式称为可忽略性条件。

再假设服药和不服药的两个组都不为空(即[math]\displaystyle{ P(X = 1)\gt 0,P(X = 0)\gt 0 }[/math]),该假设称为正性假设,满足正性假设的可忽略性条件称为强可忽略性条件。在强可忽略条件成立的情况下,因果效应[math]\displaystyle{ \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)] }[/math]是可以从观察数据中计算的,假设对于一个具体的患者,已经知道在服药的情况下可以痊愈那么希望知道若他不服药也能够痊愈的概率,即已知[math]\displaystyle{ Y(1)=1 }[/math],希望计算[math]\displaystyle{ P(Y(0)=1) }[/math],这就是所谓的反事实推断。由于在现实世界中,对于一个个体,不可能同时观察到状态[math]\displaystyle{ Y(0) }[/math][math]\displaystyle{ Y(1) }[/math],因此 [math]\displaystyle{ Y(0) }[/math]是假设的,这个假设状态所引起的[math]\displaystyle{ Y }[/math]的变化称为“潜在结果”,因此该方法有了“潜在结果方法”的名称。

现在假设有变量集合[math]\displaystyle{ Z }[/math]既影响[math]\displaystyle{ X }[/math](服药与否),又影响[math]\displaystyle{ Y }[/math](痊愈与否)。现在固定[math]\displaystyle{ Z }[/math](以[math]\displaystyle{ Z }[/math]为条件),就切断了[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]通过[math]\displaystyle{ Z }[/math]的关联,这时[math]\displaystyle{ P(Y) }[/math]只与服药与否有关联,而与服药人数比例(即[math]\displaystyle{ X }[/math]的分布)无关,在这个情况下,[math]\displaystyle{ Y }[/math]对于[math]\displaystyle{ X }[/math]的响应称为因果效应。

潜在结果理论揭示了一个原理,即在一组条件[math]\displaystyle{ Z }[/math]下,虽然[math]\displaystyle{ Y(1) }[/math][math]\displaystyle{ Y(0) }[/math]的分布依赖于其他变量的取值(例如身体健康水平、免疫能力、年龄等),但与[math]\displaystyle{ X }[/math]的分布无关时,就认为[math]\displaystyle{ X }[/math]对于[math]\displaystyle{ Y }[/math]有因果效应。也就是说,不管服药人数是100人还是1000人,其服药人群的期望愈率[math]\displaystyle{ \mathbb{E}[Y(1)] }[/math]以及不服药人群的期望痊愈率[math]\displaystyle{ \mathbb{E}[Y(0)] }[/math]都是不变的,在这种情况下,则断定因果效应成立。如果这个因果效应[math]\displaystyle{ \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)] }[/math]在数值上超过设定的阈值[math]\displaystyle{ p }[/math],则可看作两者之间具有因果关系,当前主要对于因果关系的识别或计算都明确地或隐含地采纳了这一准则。这也说明,因果效应是客观的,但是因果关系的判定依赖于主观标准。

基于结构因果模型的因果效应度量

从20世纪80年代开始,以朱迪亚·珀尔(Judea Pearl)为代表的一些研究人员提出一种新的因果分析模型[6],叫做结构因果模型(Structural Causal Model,SCM),引入了结构因果方程、因果图、Do演算(也称为干预操作)、反事实分析等概念,提出了一种全新的形式化理论,开创了另外一条从观察数据(或者观察数据与实验数据结合)进行因果分析和推断的路线。珀尔本人也证明了该理论和潜在结果理论是等价的,进一步肯定了该理论的普适性和可信任性。

平均因果效应

假设[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]是两个取值0或1的变量,[math]\displaystyle{ X = 0 }[/math]表示[math]\displaystyle{ X }[/math]没有出现,[math]\displaystyle{ X = 1 }[/math]表示[math]\displaystyle{ X }[/math]出现,[math]\displaystyle{ Y = 0 }[/math]表示[math]\displaystyle{ Y }[/math]没有发生,[math]\displaystyle{ Y = 1 }[/math]表示[math]\displaystyle{ Y }[/math]发生,[math]\displaystyle{ Z }[/math]是环境变量,定义[math]\displaystyle{ X }[/math]对于[math]\displaystyle{ Y }[/math]的平均因果效应(ACE)为

[math]\displaystyle{ \text{ACE}(X\rightarrow Y)=\mathbb{E}(Y|\text{do}(X = 1),Z)-\mathbb{E}(Y|\text{do}(X = 0),Z) }[/math]

其意思是,强制将[math]\displaystyle{ X }[/math]设置为1,固定其他变量不动(这就是所谓的“干预”),观察[math]\displaystyle{ Y }[/math]变化的期望值,并与其在[math]\displaystyle{ X }[/math]强制设置为 0 时的期望值进行比较,其中的差被认为是[math]\displaystyle{ X }[/math]对于[math]\displaystyle{ Y }[/math]的因果效应。

为了计算总体的平均因果效应,需对 [math]\displaystyle{ Z }[/math] 的所有可能取值进行平均。具体来说,计算每个 [math]\displaystyle{ Z = z }[/math]下的条件因果效应 [math]\displaystyle{ \mathbb{E}(Y \mid \text{do}(X = 1), Z = z) - \mathbb{E}(Y \mid \text{do}(X = 0), Z = z) }[/math],然后按 [math]\displaystyle{ Z }[/math] 的分布 [math]\displaystyle{ P(Z = z) }[/math]加权求和:

[math]\displaystyle{ \text{ACE}(X \rightarrow Y) = \sum_{z} \left[ \mathbb{E}(Y \mid \text{do}(X = 1), Z = z) - \mathbb{E}(Y \mid \text{do}(X = 0), Z = z) \right] \cdot P(Z = z) }[/math]

这里的平均操作针对环境变量 [math]\displaystyle{ Z }[/math],旨在消除 [math]\displaystyle{ Z }[/math] 对因果效应的混杂影响。通过调整 [math]\displaystyle{ Z }[/math]的分布,确保结果反映 [math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]的总体平均影响,而非特定环境下的局部效应。

为了判定[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]是否具有因果关系,可以确定一个阈值[math]\displaystyle{ p\geq0 }[/math],当[math]\displaystyle{ |ACE(X\rightarrow Y)|\lt p }[/math]时,认为[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]没有因果关系,否则认为两者之间存在因果关系。

干预操作

珀尔的关于因果效应的定义既比较符合常识认知,又具有坚实的数学基础,Do演算是该定义的核心,同时也具有契合常识的含义以及严格的计算程式。 Do演算是一种对于数据的主动干预,在传统的统计学中甚至找不到对它的描述,这是珀尔定义因果效应而创建的一种操作,借助这一概念,可以很好地定义什么是变量之间的因果效应。例如在决策理论中,决策是一种对于现有状态的主动干预,已知当前环境[math]\displaystyle{ Z }[/math],拟采取决策[math]\displaystyle{ X }[/math],预测结果[math]\displaystyle{ Y }[/math]。这个情况可表示为[math]\displaystyle{ P(Y|\text{do}(X),Z) }[/math],而不是[math]\displaystyle{ P(Y|X,Z) }[/math]。前一个公式表示在决策前的环境[math]\displaystyle{ Z }[/math]中,实施决策[math]\displaystyle{ X }[/math]之后,预判[math]\displaystyle{ Y }[/math]出现的概率。后一个公式则表示在决策[math]\displaystyle{ X }[/math]与实施后的环境[math]\displaystyle{ Z }[/math]共存的情况下,[math]\displaystyle{ Y }[/math]出现的概率。 该理论与随机对照试验有着深刻的联系,它们之间可以互相印证、互相转换,简直可以说是随机对照试验的数字孪生。借助这一理论,就可以通过观察数据来分析和判断因果效应,从而使得原来一些无法进行实验的学科也引入了因果分析,建立了一套严谨和系统的新的研究方法。

反事实分析

反事实在因果科学中指的是如果在发生[math]\displaystyle{ X = x }[/math],同时又出现了结果[math]\displaystyle{ Y }[/math]的情况下,若[math]\displaystyle{ X = x' }[/math][math]\displaystyle{ Y }[/math]仍然发生的可能性有多大,表示为[math]\displaystyle{ P(Y_{X = x'}|X = x,Z) }[/math]。反事实讨论的是原因的必要性,反映了人类的反思和回顾,这是人类智能中的核心部分。在反事实分析中,引入了Do演算[math]\displaystyle{ \text{do}(X = x) }[/math],即对于变量[math]\displaystyle{ X }[/math]强制设为[math]\displaystyle{ x }[/math],反映了对于现实世界的一种干预。如果在现实世界[math]\displaystyle{ Z }[/math]中实施了操作[math]\displaystyle{ \text{do}(X = x) }[/math],则结果是[math]\displaystyle{ P(Y|\text{do}(X = x),Z) }[/math],若改为反事实操作[math]\displaystyle{ \text{do}(X = x') }[/math],即做了[math]\displaystyle{ X }[/math]的另一种替换操作,所得到的结果应该是[math]\displaystyle{ P(Y|\text{do}(X = x'),Z^{*}) }[/math],其中[math]\displaystyle{ Z^{*} }[/math]是所谓的与[math]\displaystyle{ Z }[/math]最邻近的假设世界,即在[math]\displaystyle{ Z^{*} }[/math][math]\displaystyle{ Z }[/math]中,所有不受[math]\displaystyle{ X }[/math]影响的变量都取相同的值。以前也有过各种关于反事实的定义,但是大多数含义是模糊的或者难以识别的,没有严格区分现实世界与假设世界的异同。例如有些定义将反事实放在另一个更一般的世界中,这可能与反事实概念的初衷相违。有些定义用自然语言描述,无法转化为数学公式,从而难以具体计算。而珀尔的定义则语义明确,在很多情况下,又易于在计算机上进行运算。更重要的,该定义与人们的常识较为吻合,有利于与现有的知识体系相结合。反事实在日常生活和科学论述中是大量出现的。尽管从数学上说,珀尔对于反事实的定义仍然是一种约定,却是目前关于反事实推断的最为清晰、涵盖面最广以及最便于在实际中应用的概念。

基于概率差异的因果效应度量

Patrick Suppes的概率提升因果理论

Suppes提出了一种基于概率提升(Probabilistic Raising)的因果理论[8],强调原因事件对结果事件的概率影响。核心定义可以描述为,若变量[math]\displaystyle{ X }[/math]是变量[math]\displaystyle{ Y }[/math]的原因,需满足两个条件:

时序性(Temporal Priority):原因事件[math]\displaystyle{ X }[/math]必须发生在结果事件[math]\displaystyle{ Y }[/math]之前;

概率提升(Probability Raising)[math]\displaystyle{ X }[/math]的存在应提升[math]\displaystyle{ Y }[/math]发生的概率,即[math]\displaystyle{ P(Y \mid X) \gt P(Y) }[/math]

Suppes 通过概率差异[math]\displaystyle{ \Delta }[/math](Probability Difference)量化因果效应,则:

[math]\displaystyle{ \Delta = P(Y \mid X) - P(Y) }[/math]

[math]\displaystyle{ \Delta \gt 0 }[/math],则[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]有正向因果效应;若[math]\displaystyle{ \Delta \lt 0 }[/math],则为负向效应;若[math]\displaystyle{ \Delta = 0 }[/math],则无因果效应。这一度量无法直接控制混杂变量(confounders)。

Ellery Eells的持续性概率提升因果理论

Eells在1991年系统性地论证了因果关系的概率本质,提出了基于持续性概率提升(Sustained Probability Raising)的因果理论[9]。核心定义为,若变量[math]\displaystyle{ X }[/math]是变量[math]\displaystyle{ Y }[/math]的原因,必须在所有可能的背景条件[math]\displaystyle{ K }[/math]下,[math]\displaystyle{ X }[/math]能持续提升[math]\displaystyle{ Y }[/math]的发生概率。并将因果效应定义为: 在控制所有相关背景条件(Background Conditions)[math]\displaystyle{ K }[/math]的情况下,[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]的条件概率差异,公式为:

[math]\displaystyle{ \Delta = P(E \mid C, K) - P(E \mid \neg C, K) }[/math],其中[math]\displaystyle{ K }[/math]是与[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]有关的背景条件集合。

同样,若 [math]\displaystyle{ \Delta \gt 0 }[/math],则[math]\displaystyle{ X }[/math][math]\displaystyle{ Y }[/math]有正向因果效应;若[math]\displaystyle{ \Delta \lt 0 }[/math],则为负向效应;若[math]\displaystyle{ \Delta = 0 }[/math],则无因果效应。Eells 的因果定义比 Suppes 更严格,要求因果效应在所有相关背景条件下均成立,而非仅整体概率提升。但实际中往往难以穷尽所有可能的[math]\displaystyle{ K }[/math],导致操作困难。

Patricia Cheng的因果归因理论

Patricia Cheng的因果归因理论(Causal Attribution Theory)[10]与概率提升概念有深刻关联,其理论框架对传统概率提升模型进行了重要扩展和修正,核心思想是: 人类通过观察事件发生的共变概率([math]\displaystyle{ P(Y|X) }[/math][math]\displaystyle{ P(Y|\neg X) }[/math])来推断潜在因果关系,但需排除背景条件的干扰。其公式为:

[math]\displaystyle{ \text{Causal Power of } X = \frac{P(Y|X) - P(Y|\neg X)}{1 - P(Y|\neg X)} }[/math]

该公式的本质是计算[math]\displaystyle{ X }[/math]独立于背景条件时对[math]\displaystyle{ Y }[/math]的净因果效应,即[math]\displaystyle{ X }[/math]导致[math]\displaystyle{ Y }[/math]的因果力量(Causal Power)。通过公式中的分母项 [math]\displaystyle{ 1 - P(Y|\neg X) }[/math],将背景条件的影响从[math]\displaystyle{ X }[/math]的因果效应中剥离,得到[math]\displaystyle{ X }[/math]的独立因果力量。这类似于统计学中的控制混杂变量,但更侧重认知层面的归因机制。

Judea Pearl对因果效应的概率表达

Judea Pearl在2000年发表的著作[7]中通过通过结构因果模型引入干预操作(Do演算),将因果效应量化为干预操作下的概率差异,通过干预操作解决了混杂变量问题,使概率提升真正成为可操作的因果标准。公式如下:

[math]\displaystyle{ \Delta = P(Y \mid do(X=x), Z) - P(Y \mid do(X=x'), Z) }[/math]

其中: [math]\displaystyle{ do(X=x) }[/math]表示对变量[math]\displaystyle{ X }[/math]进行人为干预,将其固定为某个值[math]\displaystyle{ x }[/math][math]\displaystyle{ Y }[/math]是结果变量,[math]\displaystyle{ Z }[/math]是背景条件(控制变量); [math]\displaystyle{ x }[/math][math]\displaystyle{ x' }[/math]代表[math]\displaystyle{ X }[/math]的两种不同干预状态(例如服药与不服药)。

对于二元变量(如[math]\displaystyle{ X=1 }[/math]表示服药,[math]\displaystyle{ X=0 }[/math]表示不服药),平均因果效应可简化为:

[math]\displaystyle{ ACE = P(Y=1 \mid do(X=1)) - P(Y=1 \mid do(X=0)) }[/math]

基于有效信息的因果效应度量

有效信息(Effective Information,简称EI)是一种信息论的因果效应度量指标,具体定义为在把因变量X干预为均匀分布的条件下,因变量X与果变量Y的互信息。这个概念最早由Giulio Tononi等人在2003年提出[11],作为整合信息论中的一个关键指标。当一个系统各个部分之间具有很强的因果关联的时候,可以说这个系统便具备很高的整合程度,而有效信息便是用来度量这种因果关联程度的关键指标。到了2013年,Giulio Tononi的学生Erik Hoel等人将有效信息这个概念进一步提炼出来,用来度量马尔科夫动力学的因果效应强度,并提出了因果涌现理论[12]。在这个理论中,Hoel使用了Judea Pearldo演算来改造一般的互信息指标[24],这使得EI本质上与互信息不同。互信息度量的是相关性,而有效信息因为引入了do演算,从而可以度量因果效应。

形式定义

考虑两个随机变量:[math]X[/math]和[math]Y[/math],分别代表因变量(Cause Variable)和果变量(Effect Variable),并且假定它们的取值区间分别是[math]\mathcal{X}[/math]和[math]\mathcal{Y}[/math]。则[math]X[/math]到[math]Y[/math]的有效信息EI的定义为:

[math]\displaystyle{ EI\equiv I(X:Y|do(X\sim U(\mathcal{X})))\equiv I(\tilde{X}:\tilde{Y}) }[/math]

这里,[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施干预操作(或称do演算),使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是最大熵分布。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,

[math]\displaystyle{ Pr(\tilde{X}=x)=\frac{1}{\#(\mathcal{X})}, }[/math]

也就是,经过干预后的变量[math]\tilde{X}[/math]与干预前的变量[math]X[/math]之间的最大区别就在于分布不同:[math]\tilde{X}[/math]服从[math]\mathcal{X}[/math]上的均匀分布,而[math]X[/math]则可能是任意的分布。这里[math]\#(\mathcal{X})[/math]代表集合[math]\mathcal{X}[/math]的基数。对于有限元素集合来说,这就是集合中元素的个数。

按照Judea Pearl的理论,do算子实际上是切断了所有指向[math]X[/math]变量的因果箭头,同时保持其它因素,特别是从[math]X[/math]到[math]Y[/math]的因果机制保持不变。所谓的因果机制是指在给定[math]X[/math]取值[math]x\in \mathcal{X}[/math]的情况下,[math]Y[/math]在[math]\mathcal{Y}[/math]上取任意值[math]y\in \mathcal{Y}[/math]的条件概率:

[math]\displaystyle{ f\equiv Pr(Y=y|X=x) }[/math]

在干预中,我们要始终保持这个因果机制[math]f[/math]保持不变。当没有其它变量影响的时候,这就会导致,[math]Y[/math]的概率分布会跟着发生变化,即被间接干预成为:

[math]\displaystyle{ Pr(\tilde{Y}=y)=\sum_{x\in \mathcal{X}}Pr(X=x) Pr(Y=y|X=x)=\sum_{x\in \mathcal{X}} \frac{Pr(Y=y|X=x)}{\#(\mathcal{X})}. }[/math]

其中,[math]\tilde{Y}[/math]则代表:在保持因果机制[math]f[/math]不变的情况下,[math]Y[/math]变量被[math]X[/math]的do干预所间接改变了的Y变量,这种变化主要体现在概率分布的变化上。

因此,所谓一个因果机制[math]f[/math]的有效信息EI,就是被干预后的因变量[math]\tilde{X}[/math]和果变量[math]\tilde{Y}[/math]之间的互信息,该指标即可度量X与Y之间的因果效应强度。

可以证明,EI仅仅是因果机制f的函数,当构成矩阵f的行向量都相等的时候,EI=0;当构成f的行向量都是不同的独热向量(one-hot)的时候,EI能取到最大值[math]\log_2 N[/math],其中[math]N={\#(\mathcal{X})}[/math],也就是f的行数。

有效性

根据Erik Hoel等人在文章[12]中的描述,EI的大小和状态空间大小有关,这一性质在我们比较不同尺度的马尔科夫链的时候非常不方便,所以,Hoel定义了一个不受尺度效应影响的因果效应度量,即有效性(Effectiveness)。该变量定义为用均匀分布最大熵分布下的熵值,即[math]\displaystyle{ \log N }[/math]来做分母对EI进行归一化,这里的[math]N[/math]为状态空间[math]\mathcal{X}[/math]中的状态的数量。那么归一化后的EI便等于:

[math]\displaystyle{ Eff=\frac{EI}{\log N} }[/math]

这个归一化指标也称为有效性(effectiveness,Eff)。

维度平均的EI

张江团队发明了另一种对连续变量的有效信息进行归一化方式[13],即用状态空间维数来归一化EI,从而解决连续状态变量上的EI比较问题,这一指标被称为维度平均的有效信息(Dimension Averaged Effective Information,简称dEI)。其描述为:

[math]\displaystyle{ \mathcal{J}\equiv\frac{EI}{n} }[/math]

这里,[math]n[/math]为状态空间的维度。可以证明,在离散的状态空间中,维度平均的EI有效性指标(Eff)实际上是等价的。

对于n维迭代动力系统来说,首先,[math]\mathbf{y}[/math]和[math]\mathbf{x}[/math]表示同一维度的变量,我们假设[math]\mathbf{y}[/math]和[math]\mathbf{x}[/math]的定义域不是整个实数空间,而是一个足够大的区域:[math][-L/2,L/2][/math],其中L为该区间的大小。这样,该区域上的均匀分布的密度函数为:[math]1/L[/math]。我们希望当[math]L\rightarrow +\infty[/math]的时候,EI能够收敛到一个有限的数。然而,实际的EI是一个和x定义域大小有关的量,所以EI是参数L的函数。维度平均EI的计算公式为:

[math]\displaystyle{ \mathcal{J}=\frac{EI}{n}\approx \ln L - \frac{1}{2}\ln (2\pi e)+\frac{1}{n}\int_{[-\frac{L}{2},\frac{L}{2}]^n}\frac{1}{L^n}\cdot \ln\left|\det\left(\frac{\partial_\mathbf{x} f(\mathbf{x})}{\Sigma^{1/2}}\right)\right| d\mathbf{x} }[/math]

基于动力学可逆性的因果效应度量

张江团队发现EI实际上是对底层马尔科夫状态转移矩阵(TPM)的可逆性的一种刻画,于是尝试直接刻画这种马尔科夫链的动力学可逆性以替代EI[16]。核心定义如下:

对于给定的马尔可夫链[math]\displaystyle{ \chi }[/math]和对应的转移概率矩阵(TPM) P ,如果P同时满足:

  1. P是可逆矩阵,即存在矩阵[math]\displaystyle{ P^{-1} }[/math],使得[math]\displaystyle{ PP^{-1}=I }[/math],[math]I[/math]为单位矩阵;
  2. [math]\displaystyle{ P^{-1} }[/math]也是另一个马尔可夫链[math]\displaystyle{ \chi^{-1} }[/math]的有效TPM,

[math]\displaystyle{ \chi }[/math]和P可以称为严格动力学可逆的。我们将这一性质称为动力学可逆性。因此,从某种程度上说,EI衡量的是马尔科夫链的一种动力学可逆性

排列置换矩阵是唯一一种能同时满足上面两个条件的矩阵。由于排列置换矩阵过于特殊,我们需要能够衡量一般的马尔科夫概率转移矩阵与排列置换矩阵的靠近程度,以度量其近似动力学可逆性。在文献[16]中,作者们提出了一种用矩阵的类Schatten范数来度量一个马尔科夫概率转移矩阵的近似动力学可逆性的方法,定义为:

[math]\displaystyle{ \Gamma_{\alpha}\equiv \sum_{i=1}^N\sigma_i^{\alpha}=|P|_{\alpha}^{\alpha} }[/math]

这里,[math]|P|_{\alpha}[/math]为矩阵P的Schatten范数,[math]\Gamma_{\alpha}[/math]为近似动力学可逆性指标,[math]\sigma_i[/math]为概率转移矩阵P的奇异值,并且按照从大到小的顺序排列。

在文献[16]中,作者们证明了EI与动力学可逆性[math]\Gamma_{\alpha}[/math]之间存在着一种近似的关系:

[math]\displaystyle{ EI\sim \log\Gamma_{\alpha} }[/math]

所以[math]\displaystyle{ \log\Gamma_{\alpha} }[/math]也可以用于刻画动力学的因果效应强度。关于动力学可逆性的进一步讨论和说明,请参考词条:基于可逆性的因果涌现理论

参考文献

  1. David Hume. An Enquiry concerning Human Understanding. 1748.
  2. Pearson, Karl (1896). "Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity, and Panmixia". Philosophical Transactions of the Royal Society of London. 187: 253–318.
  3. 3.0 3.1 Neyman, Jerzy (1923). "O wyznaczeniu efektów doświadczeń losowych" [[On Determining the Effects of Randomized Experiments]]. Książnica Atlas (in Polish). Książnica Atlas.{{cite journal}}: CS1 maint: unrecognized language (link)
  4. Rubin, Donald B. (1972). "Estimating Causal Effects of Treatments in Experimental and Observational Studies". ETS Research Bulletin Series. 1972 (2): i–31.
  5. Granger, C. W. J. (1969). "Investigating Causal Relations by Econometric Models and Cross-Spectral Methods". Econometrica. 37: 424–438.
  6. 6.0 6.1 Pearl, Judea (1995). "Causal Diagrams for Empirical Research". Biometrika. 82 (4): 702–710.
  7. 7.0 7.1 7.2 Pearl, Judea (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press. ISBN 978-0521895606. https://doi.org/10.1017/CBO9780511803161. 
  8. 8.0 8.1 Suppes, Patrick (1970). A Probabilistic Theory of Causality. Amsterdam: North-Holland Publishing Company. 
  9. 9.0 9.1 Eells, Ellery (1991). Probabilistic Causality. Cambridge: Cambridge University Press. 
  10. 10.0 10.1 Cheng, Patricia W. (1997). "From covariation to causation: A causal power theory". Psychological Review. 104 (2): 367–405.
  11. 11.0 11.1 Tononi, G.; Sporns, O. (2003). "Measuring information integration". BMC Neuroscience. 4 (31).
  12. 12.0 12.1 12.2 Hoel, Erik P.; Albantakis, L.; Tononi, G. (2013). "Quantifying causal emergence shows that macro can beat micro". Proceedings of the National Academy of Sciences. 110 (49): 19790–19795.
  13. 13.0 13.1 Zhang, Jiang; Liu, Kaiwei (2022). "Neural Information Squeezer for Causal Emergence". Entropy. 25 (1): 26.
  14. Mingzhe Yang; Zhipeng Wang; Kaiwei Liu; Yingqi Rong; Bing Yuan; Jiang Zhang (2024). "Finding emergence in data by maximizing effective information". arXiv: 2308.09952.
  15. Kaiwei Liu; Bing Yuan; Jiang Zhang (2024). "An Exact Theory of Causal Emergence for Stochastic Iterative Systems". arXiv: 2405.09207.
  16. 16.0 16.1 16.2 16.3 Jiang Zhang; Ruyi Tao; Keng Hou Leong; Mingzhe Yang; Bing Yuan (2024). "Dynamical reversibility and a new theory of causal emergence". arXiv.
  17. 李廉; 刘礼; 杨矫云; 廖军; 梁知音 (7 2023). 因果漫步. 机械工业出版社. 
  18. Pearl, Judea (2018). Measuring Causality: The Science of Cause and Effect. Cambridge University Press. doi:10.1017/9781108270218. ISBN 978-1108420220. https://www.researchgate.net/publication/349471752. 
  19. Wiener, Norbert (1949). Extrapolation, Interpolation, and Smoothing of Stationary Time Series. The MIT Press. ISBN 9780262230025. 
  20. Wiener, Norbert (1956). "The theory of prediction". Modern Mathematics for Engineers. 1: 125–139.
  21. Schreiber, Thomas (2000). "Measuring information transfer". Physical Review Letters. 85 (2): 461.
  22. Kathpalia, Aditi; Nagaraj, Nithin (2019). "Data - based intervention approach for Complexity - Causality measure" (PDF). PeerJ Computer Science. 5: e196.
  23. Nagaraj, Nithin; Balasubramanian, Karthi; Dey, Sutirth (2013). "A new complexity measure for time series analysis and classification". The European Physical Journal Special Topics. 222 (3–4): 847–860.
  24. Judea Pearl; 刘礼; 杨矫云; 廖军; 李廉 (4 2022). 因果论——模型、推理和推断. 机械工业出版社.