潜在结果

此词条由因果科学读书会词条梳理志愿者我是猫（74989）翻译审校，未经专家审核，带来阅读不便，请见谅

概念来源

潜在结果最初的提出是在Neyman的论文[1]中，但是这篇文章只在随机对照试验中使用了潜在结果的概念，且直到1990年翻译成英文后才为人所知。Rubin在他1974年的论文中也提出了潜在结果的概念，并将这个概念推广到了观察性数据中[2]，真正开启了统计学界对因果推断的广泛研究。

何为潜在结果？又如何基于潜在结果定义因果？假设我们关心某个变量A（例如，在某个时间点是否服用阿莫西林，A=1是服用，A=0是没有服用）对Y（服用后三小时的是否还感冒，Y=1表示感冒，Y=0表示没有感冒）的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态：一个是如果他服药，他三小时后是否感冒，不妨记作Y(1)；另一个如果他没有服药，他三小时后是否感冒，不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。（注意，在实际中，Y(1)和Y(0)这二者中只有一个可以被观察到。另外，严格地说，此处实际上做了“个体处理性稳定性”即SUTVA的假设）那么对这个人，就可能有以下四种情况：

a) Y(0)=0, Y(1)=0。即不论吃不吃药，这个人在三小时后均不会感冒。

b) Y(0)=1, Y(1)=1。即不论吃不吃药，这个人在三小时后均会感冒。

c) Y(0)=1, Y(1)=0。即此人如果不吃药，三小时后会感冒，但是如果吃药，三小时后不会感冒。

d) Y(0)=0, Y(1)=1。即此人如果不吃药，三小时后不会感冒，但是如果吃药，三小时后会感冒。

在a和b两种情况下，Y(1)=Y(0)，即吃不吃药不会影响三小时后是否感冒的状态，这种情况下我们说吃药对三小时后是否感冒没有因果作用，相反，在c和d两种情况下，Y(1)≠Y(0)，这种情况下我们说吃药对三小时后是否感冒有因果作用。使用潜在结果，我们便可以方便地定义感兴趣的因果作用，例如平均因果效应E[Y(1)-Y(0)]，这个量代表了在一个群体中，如果每一个人都采取某种处理和都不接受处理相比，这两种情况下平均意义上的结果差值。

使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”，因为根据我们的常识，如果某天鸡不打鸣（或许是因为生病或劳累），太阳仍然会照常升起。

与此同时，也诞生了潜在结果框架，有时也称为鲁宾因果模型 Rubin Causal Model (RCM) ，Neyman-Rubin 因果模型^[1]。它是一种基于潜在结果框架的因果统计分析方法，以Donald Rubin的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 ^[2] 潜在结果框架 Potential Outcomes Framework最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的，^[3]尽管他只在完全随机实验的背景下讨论了它。 ^[4]鲁宾将其扩展为在观察性和实验性研究中思考因果关系的一般框架。^[1]

思想介绍

鲁宾因果模型是基于潜在结果的想法。例如，如果一个人上过大学，他在 40 岁时会有特定的收入，而如果他没有上过大学，他在 40 岁时会有不同的收入。为了衡量这个人上大学的因果效应，我们需要比较同一个人在两种不同的未来中的结果。由于不可能同时看到两种潜在结果，因此总是缺少其中一种潜在结果。这种困境就是“因果推理的基本问题”。

由于因果推理的根本问题，无法直接观察到单元级别的因果效应。然而，随机实验允许估计人口水平的因果效应。^[5]随机实验将人们随机分配到对照组：大学或非大学。由于这种随机分配，各组（平均）相等，40 岁时的收入差异可归因于大学分配，因为这是各组之间的唯一差异。然后可以通过计算处理（上大学）和对照（非上大学）样本之间的平均值差异来获得平均因果效应（也称为平均处理效应）的估计值。

然而，在许多情况下，由于伦理或实际问题，随机实验是不可能的。在这种情况下，存在非随机分配机制。上大学的例子就是这种情况：人们不是随机分配上大学的。相反，人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法，例如倾向得分匹配。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。

概念定义

潜在结果：给定一个单元，和一系列动作，我们把一个“动作-单元”确定为一个潜在结果。“潜在(potential)”这个词表达的意思是我们并不总是能在现实中观察到这个结果(outcome)，但原则上它们可能发生。

样例介绍

假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的，我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应，或者说治疗效果，就是指这两种潜在结果之间的差异。

subject	Yt(u)	Yc (u)	Yt (u)-Yc (u）
Joe	130	135	−5

Yt(u) 表示如果Joe服用了这种新药物之后对应的血压。一般来说，这个符号表示在个体 u 上的实施治疗 t 的潜在结果。类似地，Yc (u)是在个体 u 上的不做治疗（控制）c 的潜在结果，即Yc (u)表示Joe不吃这种新药物时对应的血压。则在这种情况下，Yt (u)-Yc (u)也就是服用这种新药物对Joe的血压的因果效应。

从这个表格中我们只知道对Joe的因果效应。研究中的其他人如果服用新药，血压可能会升高。然而，不管其他受试者的因果效应如何，我们可以得出结论，对于Joe来说，相比于他没有服用新药的情况，服用该药，他的血压会降低。

考虑更多的病患样本

subject	Yt(u)	Yc (u)	Yt (u)-Yc (u）
Joe	130	135	−5
Mary	140	150	−10
Sally	135	125	10
Bob	135	150	−15

每个实验对象的因果效应是不同的。从该表中可知Joe，Mary和Bob的因果效应为负值，说明药物仅对Joe，Mary和Bob起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面，对于Sally 来说，这种药物会导致血压升高。

为了让一个潜在的结果有意义，它必须是可测试的，至少是先验的。例如，如果Joe在任何情况下都没有办法获得新药，那么他就不可能获得效应。这永远不可能发生在Joe身上。如果不能观察到效应，即使在理论上，那么治疗对Joe的血压的因果效应也不能确定。

没有干预就没有因果关系

新药的因果效应是明确定义的，因为它是两种可能发生的潜在结果的简单差异。在这种情况下，我们（或其他事物）可以干预世界，至少在概念上是这样，因此可能会发生不同的事。

如果永远不可能发生其中一种潜在结果，那么这种因果效应的定义就会变得更加棘手。例如，Joe的身高对他的体重有什么因果关系？这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果：Joe 在处理下的体重（处理被定义为增高3英寸）和 Joe 在控制下的体重（控制被定义为他当前的身高）。

问题在于：我们无法增加Joe的身高。没有办法观察如果Joe更高，他的体重会是多少，因为我们没有办法干预Joe的身高从而让他变得更高，这就让研究Joe的身高和体重的因果关系变得没有意义。因此有一个口号：没有干预就没有因果关系。

个体处理稳定性假设 (SUTVA)

我们要求“对一个个体的 [潜在结果] 观察不应受到其他个体的特定处理分配的影响”（Cox 1958，第 2.4 节）。这被称为个体处理稳定性假设（SUTVA），它超越了独立性的概念。

在我们的例子中，Joe 的血压不应该取决于 Mary 是否接受了药物。但如果真的发生了呢？假设Joe和Mary住在同一所房子里，Mary总是做饭。这种药物会导致Mary渴望咸的食物，所以如果她服用这种药物，她会用比其他情况下更多的盐来烹饪。高盐饮食会增加Joe的血压。因此，Joe的血压结果将同时取决于他接受的处理和Mary接受的处理。

在不满足SUTVA的情况下，因果推断会更加困难。我们可以通过考虑更多的处理来解释相关的观察结果。我们通过考虑 Mary 是否接受处理来创建 4 个处理。

主题	乔 = c，玛丽 = t	乔 = t，玛丽 = t	乔 = c，玛丽 = c	乔 = t，玛丽 = c
乔	140	130	125	120

回想一下，因果效应被定义为两个潜在结果之间的差异。在这种情况下，存在多种因果效应，因为存在两个以上的潜在结果。一是Mary接受处理时药物对Joe的因果效应【130-140】。另一个是当Mary没有接受处理时对Joe的因果效应【120-125】。第三是在Joe没有得到处理的情况下，Mary的处理对Joe的因果效应【125-140】。Mary 接受的处理对 Joe 的因果影响比 Joe 接受的处理对 Joe 的影响更大，而且是相反的方向。

通过以这种方式考虑更多潜在结果，我们可以使SUTVA成立。但是，如果 Joe 以外的任何个体都依赖于 Mary，那么我们必须考虑进一步的潜在结果。依赖个体的数量越多，我们必须考虑的潜在结果就越多，计算也变得越复杂（考虑对不同的20个人进行的实验，每个人的处理状态都会影响其他人的结果）。为了（轻松）估计单一处理相对于对照的因果效应，SUTVA 应该成立。

分配机制

分配机制，即分配单位处理的方法，影响平均因果效应的计算。换句话说，当把一个接受治疗的组和一个没有接受治疗的组进行比较时，我们需要知道(或者做出一个假设)为什么某些人被分配到治疗组，而其他人没有。

一种分配机制是随机化。对于每个受试者，我们可以抛硬币来确定她是否接受处理。在最简单的情况下，这种分配是随机的(就像在临床试验中一样) ，而且不会混淆，因为分配并不依赖于潜在的结果。

如果我们希望五个受试者接受处理，我们可以将处理分配给我们从组里里挑选出来的前五个名字。当我们随机分配处理时，我们可能会得到不同的答案。

另一种分配机制是非随机化的，如果所有接受治疗的个体都是因为他们最有可能受益而接受治疗，那么治疗结果和对照组之间的直接比较不能代表治疗的因果效应。

从以下这个例子来理解分配机制，假设这个数据是真实的：

主题	Y_{t}(u)	Y_{c}(u)	Y_{t}(u)-Y_{c}(u)
乔	130	115	15
玛丽	120	125	−5
莎莉	100	125	−25
鲍勃	110	130	−20
詹姆士	115	120	−5
平均	115	123	−8

真正的平均因果效应是 -8。但是对这些人的因果效应永远不会等于这个平均值。因果效应各不相同，因为它通常（总是未知（？））在现实生活中也是如此。在随机分配处理后，我们可以估计因果效应为：

主题	Y_{t}(u)	Y_{c}(u)	Y_{t}(u)-Y_{c}(u)
乔	130	?	?
玛丽	120	?	?
莎莉	?	125	?
鲍勃	?	130	?
詹姆士	115	?	?
平均	121.66	127.5	−5.83

处理的不同随机分配产生对平均因果效应的不同估计。

主题	Y_{t}(u)	Y_{c}(u)	Y_{t}(u)-Y_{c}(u)
乔	130	?	?
玛丽	120	?	?
莎莉	100	?	?
鲍勃	?	130	?
詹姆士	?	120	?
平均	116.67	125	−8.33

平均因果效应会有所不同，因为我们的样本很小并且反馈效应的方差很大。如果样本较大且方差较小，则无论随机分配给处理的特定单位如何，平均因果效应将更接近真实的平均因果效应。

或者，假设该机制将处理分配给所有男性且仅分配给他们。

主题	Y_{t}(u)	Y_{c}(u)	Y_{t}(u)-Y_{c}(u)
乔	130	?	?
鲍勃	110	?	?
詹姆士	105	?	?
玛丽	?	130	?
莎莉	?	125	?
苏茜	?	135	?
平均	115	130	−15

在这种分配机制下，女性不可能接受处理，因此无法确定对女性受试者的平均因果效应。为了对受试者做出因果效应的任何推断，受试者接受治疗的概率必须大于 0 且小于 1。

另见

鲁宾因果框架

编者推荐

集智俱乐部文章

Donald Rubin的因果推断学术贡献：超出统计学范畴的划时代影响

因果推断的潜在结果框架在实验性研究的应用 | 周日直播·因果科学读书会 | 集智俱乐部 (swarma.org)

两套因果框架深度剖析：潜在结果模型与结构因果模型 | 因果科学读书会 | 集智俱乐部 (swarma.org)

集智课程

因果科学读书会第三季：因果+X (swarma.org)

“因果”并不是一个新概念，而是一个已经在多个学科中使用了数十年的分析技术。通过前两季的分享，我们主要梳理了因果科学在计算机领域的前沿进展。如要融会贯通，我们需要回顾数十年来在社会学、经济学、医学、生物学等多个领域中，都是使用了什么样的因果模型、以什么样的范式、解决了什么样的问题。我们还要尝试进行对比和创新，看能否以现在的眼光，用其他的模型，为这些研究提供新的解决思路。

“因果+X”就是要让因果真正地应用于我们的科学研究中，不管你是来自计算机、数理统计领域，还是社会学、经济学、管理学领域，还是医学、生物学领域，我们希望共同探究出因果研究的范式，真正解决因果的多学科应用问题，乃至解决工业界的问题。

参考文献

↑ ^1.0 ^1.1 Sekhon, Jasjeet (2007). "The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods". The Oxford Handbook of Political Methodology. http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf.
↑ Holland, Paul W. (1986). "Statistics and Causal Inference". Journal of the American Statistical Association. 81 (396): 945–960. doi:10.1080/01621459.1986.10478354. JSTOR 2289064.
↑ Neyman, Jerzy. Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)
↑ Rubin, Donald (2005). "Causal Inference Using Potential Outcomes". Journal of the American Statistical Association. 100 (469): 322–331. doi:10.1198/016214504000001880.
↑ Rubin, Donald (1974). "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies". Journal of Educational Psychology. 66 (5): 688–701 [p. 689]. doi:10.1037/h0037350.

[sekhon-1] 1.0 ^1.1 Sekhon, Jasjeet (2007). "The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods". The Oxford Handbook of Political Methodology. http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf.

[holland:causal86-2] Holland, Paul W. (1986). "Statistics and Causal Inference". Journal of the American Statistical Association. 81 (396): 945–960. doi:10.1080/01621459.1986.10478354. JSTOR 2289064.

[neyman:masters-3] Neyman, Jerzy. Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes. Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)

[Jasa1-4] Rubin, Donald (2005). "Causal Inference Using Potential Outcomes". Journal of the American Statistical Association. 100 (469): 322–331. doi:10.1198/016214504000001880.

[:01-5] Rubin, Donald (1974). "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies". Journal of Educational Psychology. 66 (5): 688–701 [p. 689]. doi:10.1037/h0037350.

[1]

[2]

[3]

[4]

[5]