潜在结果

潜在结果最初由Jerzy Neyman提出,但Neyman只在随机试验的背景下讨论了潜在结果,后来Donald Rubin将潜在结果拓展到观察性研究中。

概念来源

“潜在(potential)”这个词表达的意思是我们并不总是能在现实中观察到这个结果(outcome),但原则上它们可能发生。潜在结果是指给定一个单元和一系列动作,我们把一个“动作-单元”确定为一个潜在结果。潜在结果最初的提出是在Neyman的论文中,但是这篇文章只在随机对照试验中使用了潜在结果的概念,且直到1990年翻译成英文后才为人所知。Donald Rubin在他1974年的论文中也提出了潜在结果的概念,并将这个概念推广到了观察性数据中,真正开启了统计学界对因果推断的广泛研究。

何为潜在结果?又如何基于潜在结果定义因果?

假设我们关心某个变量A(例如,在某个时间点是否服用阿莫西林,A=1是服用,A=0是没有服用)对Y(服用后三小时的是否还感冒,Y=1表示感冒,Y=0表示没有感冒)的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态:一个是如果他服药,他三小时后是否感冒,不妨记作Y(1);另一个如果他没有服药,他三小时后是否感冒,不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。(注意,在实际中,Y(1)和Y(0)这二者中只有一个可以被观察到。另外,严格地说,此处实际上做了“个体处理稳定性”即SUTVA的假设那么对这个人,就可能有以下四种情况:

a) Y(0)=0, Y(1)=0。即不论吃不吃药,这个人在三小时后均不会感冒。

b) Y(0)=1, Y(1)=1。即不论吃不吃药,这个人在三小时后均会感冒。

c) Y(0)=1, Y(1)=0。即此人如果不吃药,三小时后会感冒,但是如果吃药,三小时后不会感冒。

d) Y(0)=0, Y(1)=1。即此人如果不吃药,三小时后不会感冒,但是如果吃药,三小时后会感冒。

在a和b两种情况下,Y(1)=Y(0),即吃不吃药不会影响三小时后是否感冒的状态,这种情况下我们说吃药对三小时后是否感冒没有因果作用,相反,在c和d两种情况下,Y(1)≠Y(0),这种情况下我们说吃药对三小时后是否感冒有因果作用。使用潜在结果,我们便可以方便地定义感兴趣的因果作用,例如平均因果效应E[Y(1)-Y(0)],这个量代表了在一个群体中,如果每一个人都采取某种处理和都不接受处理相比,这两种情况下平均意义上的结果差值。

使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。

从分析潜在结果出发,也诞生了潜在结果框架,有时也称为鲁宾因果框架Rubin Causal Model (RCM)Neyman-Rubin 因果模型[1]。它是一种基于潜在结果框架的因果统计分析方法,以Donald Rubin的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 [2] 潜在结果框架 Potential Outcomes Framework最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,[3]尽管他只在完全随机实验的背景下讨论了它。 [4]Donald Rubin将其扩展为在观察性和实验性研究中思考因果关系的一般框架。[1]

潜在结果框架中有着这三个基本假设,首先,没有干预则没有因果关系,上文提到潜在结果是指给定一个单元和一系列动作,我们把一个“动作-单元”确定为一个潜在结果。若是没有干预措施对目标变量的作用,我们则无法获得对应干预前后的潜在结果,则我们就无法计算出二者的因果效应,其次,为了简化我们的计算方式,我们必须假设研究样本之间每个个体的处理效应都是稳定的,因此有了SUTVA假设,保障了每个处理对应的潜在结果都是稳定的,保证了因果效应的可解释性,最后是分配机制的假设,假设每个实验对象分配到不同的处理组的概率都是大于0小于1的,这样我们可以对所有的对象进行平均因果效应的推断,而不是只局限与某一类别人群。

思想介绍

潜在结果模型是基于潜在结果的想法。例如,如果一个人上过大学,他在 40 岁时会有特定的收入,而如果他没有上过大学,他在 40 岁时会有不同的收入。为了衡量这个人上大学的因果效应,我们需要比较同一个人在两种不同的未来中的结果。由于不可能同时看到两种潜在结果,因此总是缺少其中一种潜在结果。这种困境就是“因果推理的基本问题”。

因果推理的基本问题无法直接观察到单元级别的因果效应。但由于随机实验允许估计人口水平的因果效应。[5] 故可利用随机实验将人们随机分配到对照组:即大学或非大学。由于按照这样的方式进行随机分配,各组(平均)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的唯一差异。然后可以通过计算处理(上大学)和对照(非上大学)样本之间的平均值差异来获得平均因果效应(也称为平均处理效应)的估计值。

然而,在许多情况下,由于伦理或实际问题,随机实验是不可能的。在这种情况下,存在非随机分配机制。上大学的例子就是这种情况:人们不是随机分配上大学的。相反,人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法,例如倾向得分匹配。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。

样例介绍

假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的,我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应,或者说治疗效果,就是指这两种潜在结果之间的差异。

subject Yt(u) Yc (u) Yt (u)-Yc (u)
130 135 −5

Yt(u) 表示如果乔服用了这种新药物之后对应的血压。一般来说,这个符号表示在个体 u 上的实施治疗 t 的潜在结果。类似地,Yc (u)是在个体 u 上的不做治疗(控制 )c 的潜在结果,即Yc (u)表示乔不吃这种新药物时对应的血压。则在这种情况下,Yt (u)-Yc (u)也就是服用这种新药物对乔的血压的因果效应。

从这个表格中我们只知道对乔的因果效应。研究中的其他人如果服用新药,血压可能会升高。然而,不管其他受试者的因果效应如何,我们可以得出结论,对于乔来说,相比于他没有服用新药的情况,服用该药,他的血压会降低。

考虑更多的病患样本,发现每个实验对象的因果效应是不同的。

subject Yt(u) Yc (u) Yt (u)-Yc (u)
130 135 −5
玛丽 140 150 −10
莎莉 135 125 10
鲍勃 135 150 −15

从该表中可知乔,玛丽和鲍勃的因果效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于莎莉来说,这种药物会导致血压升高。

在此基础上,必须明确:为了让一个潜在的结果有意义,它必须是可测试的,至少是先验的。

即:如果乔在任何情况下都没有办法获得新药,那么他就不可能获得因果效应。这永远不可能发生在乔身上。如果不能观察到因果效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。

没有干预就没有因果关系

以上述的例子为例,新药的因果效应是明确定义的,因为它是两种可能发生的潜在结果的简单差异。在这种情况下,我们(或其他事物)可以干预世界,至少在概念上是这样,因此可能会发生不同的事。

如果永远不可能发生其中一种潜在结果,那么这种因果效应的定义就会变得更加棘手。例如,乔的身高对他的体重有什么因果关系?这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果:乔 在处理下的体重(处理被定义为增高3英寸)和 乔 在控制下的体重(控制被定义为他当前的身高)。

问题在于:我们无法增加乔的身高。没有办法观察如果乔更高,他的体重会是多少,因为我们没有办法干预乔的身高从而让他变得更高,这就让研究乔的身高和体重的因果关系变得没有意义。由此可说,没有干预就没有因果关系。

个体处理稳定性假设 (SUTVA)

我们要求“对一个个体潜在结果的观察不应受到其他个体的特定处理分配的影响”(Cox 1958,第 2.4 节)。这被称为个体处理稳定性假设(SUTVA),它超越了独立性的概念。

在我们的例子中,乔 的血压不应该取决于 玛丽 是否接受了药物。但如果真的发生了呢?假设乔和玛丽住在同一所房子里,玛丽总是做饭。这种药物会导致玛丽渴望咸的食物,所以如果她服用这种药物,她会用比其他情况下更多的盐来烹饪。高盐饮食会增加乔的血压。因此,乔的血压结果将同时取决于他接受的处理和玛丽接受的处理。

在不满足SUTVA的情况下,因果推断会更加困难。我们可以通过考虑更多的处理来解释相关的观察结果。我们通过考虑 玛丽 是否接受处理来对问题进行分析:

主题 乔 = c,玛丽 = t 乔 = t,玛丽 = t 乔 = c,玛丽 = c 乔 = t,玛丽 = c
140 130 125 120

回想一下,因果效应被定义为两个潜在结果之间的差异。在这种情况下,存在多种因果效应,因为存在两个以上的潜在结果。一是玛丽接受处理时药物对乔的因果效应{130,140}。另一个是当玛丽没有接受处理时对乔的因果效应{120,125}。第三是在乔没有得到处理的情况下,玛丽的处理对乔的因果效应{125,140}。玛丽 接受的处理对 乔 的因果影响比 乔 接受的处理对 乔 的影响更大,而且是相反的方向。

通过以这种方式考虑更多潜在结果,我们可以使SUTVA成立。但是,如果 乔 以外的任何个体都依赖于 玛丽,那么我们必须考虑进一步的潜在结果。依赖个体的数量越多,我们必须考虑的潜在结果就越多,计算也变得越复杂(考虑对不同的20个人进行的实验,每个人的处理状态都会影响其他人的结果)。为了(轻松)估计单一处理相对于对照的因果效应,SUTVA 应该成立。

分配机制

分配机制,即给个体分配处理(或者治疗)的方法,影响平均因果效应的计算。换句话说,当把一个接受处理的组和一个没有接受处理的组进行比较时,我们需要知道(或者做出一个假设)为什么某些人被分配到处理组,而其他人没有。

一种分配机制是随机化。对于每个受试者,我们可以抛硬币来确定她是否接受处理。在最简单的情况下,这种分配是随机的(就像在临床试验中一样) ,而且不会混淆,因为分配并不依赖于潜在的结果。

如果我们希望五个受试者接受处理,我们可以将处理分配给我们从组里里挑选出来的前五个名字。当我们随机分配处理时,我们可能会得到不同的答案。

另一种分配机制是非随机化的,如果所有接受处理的个体都是因为他们最有可能受益而接受处理,那么处理结果和对照组之间的直接比较不能代表处理的因果效应。

从以下这个例子来理解分配机制,假设我们同时知道每个个体接受处理和未接受处理的真实潜在结果是什么:

主题 Y_{t}(u) Y_{c}(u) Y_{t}(u)-Y_{c}(u)
130 115 15
玛丽 120 125 −5
莎莉 100 125 −25
鲍勃 110 130 −20
詹姆士 115 120 −5
平均 115 123 −8

可以计算得出真实的平均因果效应是-8。但实际上每个人的因果效应各异,都不会等于这个平均值。而且在现实生活中个体因果效应通常是未知的,因为没办法让一个个体即接受处理又不接受处理,而能同时得到两种情况下的潜在结果。但是在随机分配处理后,我们可以对多个人中接受处理的和未接受处理的潜在结果分别求平均,得到人群的平均因果效应:

主题 Y_{t}(u) Y_{c}(u) Y_{t}(u)-Y_{c}(u)
130 ? ?
玛丽 120 ? ?
莎莉 ? 125 ?
鲍勃 ? 130 ?
詹姆士 115 ? ?
平均 121.66 127.5 −5.83

当然,不同的随机分配接受处理个体,产生的平均因果效应的估计值也不同:

主题 Y_{t}(u) Y_{c}(u) Y_{t}(u)-Y_{c}(u)
130 ? ?
玛丽 120 ? ?
莎莉 100 ? ?
鲍勃 ? 130 ?
詹姆士 ? 120 ?
平均 116.67 125 −8.33

平均因果效应会有所不同,因为我们的样本很小并且反馈效应的方差很大。如果样本较大且方差较小,则无论随机分配给处理的特定单位如何,平均因果效应将更接近真实的平均因果效应。

以上是随机分配机制的结果。再看一种可能不太合理的分配机制,假设仅将处理分配给所有男性。

主题 Y_{t}(u) Y_{c}(u) Y_{t}(u)-Y_{c}(u)
130 ? ?
鲍勃 110 ? ?
詹姆士 105 ? ?
玛丽 ? 130 ?
莎莉 ? 125 ?
苏茜 ? 135 ?
平均 115 130 −15

虽然在不区分性别的情况下可以得到一个平均因果效应值,但是在这种分配机制下,因为没有接受处理的女性,所以无法单独对女性受试者确定她们的平均因果效应。此时对女性受试者而言,她们接受处理的概率为0,而为了能对受试者做出因果效应的任何推断,受试者接受处理的概率必须大于 0 且小于 1(Positivity 假设)。

另见

编者推荐

集智俱乐部文章

Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响

集智课程

因果推断的潜在结果框架在实验性研究的应用 | 周日直播·因果科学读书会 | 集智俱乐部 (swarma.org)

两套因果框架深度剖析:潜在结果模型与结构因果模型 | 因果科学读书会 | 集智俱乐部 (swarma.org)

因果科学读书会第三季:因果+X (swarma.org)

“因果”并不是一个新概念,而是一个已经在多个学科中使用了数十年的分析技术。通过前两季的分享,我们主要梳理了因果科学在计算机领域的前沿进展。如要融会贯通,我们需要回顾数十年来在社会学、经济学、医学、生物学等多个领域中,都是使用了什么样的因果模型、以什么样的范式、解决了什么样的问题。我们还要尝试进行对比和创新,看能否以现在的眼光,用其他的模型,为这些研究提供新的解决思路。

“因果+X”就是要让因果真正地应用于我们的科学研究中,不管你是来自计算机、数理统计领域,还是社会学、经济学、管理学领域,还是医学、生物学领域,我们希望共同探究出因果研究的范式,真正解决因果的多学科应用问题,乃至解决工业界的问题。


两套因果框架深度剖析:潜在结果模型与结构因果模型

这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第二季内容的分享,由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型,并介绍了两个框架的相互转化规律。讲述因果推断的两大框架:潜在结果模型和结构因果模型,讨论他们各自的优缺点以及他们之间的联系,详细介绍他们之间的转化规律。


潜结果框架下的因果效应

什么是因果呢?“因”其实就是引起某种现象发生的原因,而“果”就是某种现象发生后产生的结果。因果问题在我们日常生活中十分常见,但是不管是传统的统计学还是当下很火的大数据、机器学习,更多的是解决相关性的问题。因果问题存在于很多领域,如医疗健康、经济、政治科学、数字营销等。该课程是由浙江大学助理教授况琨讲授的,主要回答以下一些重要的问题:因果性与相关性的区别是什么?相关性有哪几种来源?如何评估因果效应?有哪些常用且前沿的方法?

相关路径

  • 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
  • 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
  • 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。

参考文献

  1. 1.0 1.1 Sekhon, Jasjeet (2007). "The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods". The Oxford Handbook of Political Methodology. http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf. 
  2. Holland, Paul W. (1986). "Statistics and Causal Inference". Journal of the American Statistical Association. 81 (396): 945–960. doi:10.1080/01621459.1986.10478354. JSTOR 2289064.
  3. Neyman, Jerzy. Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)
  4. Rubin, Donald (2005). "Causal Inference Using Potential Outcomes". Journal of the American Statistical Association. 100 (469): 322–331. doi:10.1198/016214504000001880.
  5. Rubin, Donald (1974). "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies". Journal of Educational Psychology. 66 (5): 688–701 [p. 689]. doi:10.1037/h0037350.