更改

添加30字节 、 2022年7月18日 (一) 22:12
无编辑摘要
第1行: 第1行: −
'''潜在结果'''最初由Jerzy Neyman提出,但Neyman只在随机试验的背景下讨论了潜在结果,后来Donald Rubin将潜在结果拓展到观察性研究中。
+
'''潜在结果'''最初由Jerzy Neyman提出,但Neyman只在随机试验的背景下讨论了潜在结果,后来[[Donald Rubin]]将潜在结果拓展到观察性研究中。
    
== 概念来源 ==
 
== 概念来源 ==
 
潜在结果是指给定一个单元,和一系列动作,我们把一个“动作-单元”确定为一个潜在结果。“潜在(potential)”这个词表达的意思是我们并不总是能在现实中观察到这个结果(outcome),但原则上它们可能发生。
 
潜在结果是指给定一个单元,和一系列动作,我们把一个“动作-单元”确定为一个潜在结果。“潜在(potential)”这个词表达的意思是我们并不总是能在现实中观察到这个结果(outcome),但原则上它们可能发生。
   −
潜在结果最初的提出是在Neyman的论文中,但是这篇文章只在随机对照试验中使用了潜在结果的概念,且直到1990年翻译成英文后才为人所知。Rubin在他1974年的论文中也提出了潜在结果的概念,并将这个概念推广到了观察性数据中,真正开启了统计学界对因果推断的广泛研究。
+
潜在结果最初的提出是在Neyman的论文中,但是这篇文章只在随机对照试验中使用了潜在结果的概念,且直到1990年翻译成英文后才为人所知。[[Donald Rubin]]在他1974年的论文中也提出了潜在结果的概念,并将这个概念推广到了观察性数据中,真正开启了统计学界对因果推断的广泛研究。
    
何为潜在结果?又如何基于潜在结果定义因果?假设我们关心某个变量A(例如,在某个时间点是否服用阿莫西林,A=1是服用,A=0是没有服用)对Y(服用后三小时的是否还感冒,Y=1表示感冒,Y=0表示没有感冒)的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态:一个是如果他服药,他三小时后是否感冒,不妨记作Y(1);另一个如果他没有服药,他三小时后是否感冒,不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。(注意,在实际中,Y(1)和Y(0)这二者中只有一个可以被观察到。另外,严格地说,此处实际上做了“个体处理稳定性”即SUTVA的假设)那么对这个人,就可能有以下四种情况:
 
何为潜在结果?又如何基于潜在结果定义因果?假设我们关心某个变量A(例如,在某个时间点是否服用阿莫西林,A=1是服用,A=0是没有服用)对Y(服用后三小时的是否还感冒,Y=1表示感冒,Y=0表示没有感冒)的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态:一个是如果他服药,他三小时后是否感冒,不妨记作Y(1);另一个如果他没有服药,他三小时后是否感冒,不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。(注意,在实际中,Y(1)和Y(0)这二者中只有一个可以被观察到。另外,严格地说,此处实际上做了“个体处理稳定性”即SUTVA的假设)那么对这个人,就可能有以下四种情况:
第20行: 第20行:  
使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。
 
使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。
   −
'''因此从分析潜在结果出发,诞生了<font color="#ff8000">潜在结果框架,有时也称为</font>鲁宾因果模型 Rubin Causal Model (RCM)''' ,'''Neyman-Rubin 因果模型'''<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>。它是一种基于潜在结果框架的因果统计分析方法,以Donald Rubin的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923).  Excerpts reprinted in English, Statistical Science, Vol. 5, pp.&nbsp;463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>Donald Rubin将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" />
+
'''因此从分析潜在结果出发,诞生了<font color="#ff8000">潜在结果框架,有时也称为</font>鲁宾因果模型 Rubin Causal Model (RCM)''' ,'''Neyman-Rubin 因果模型'''<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>。它是一种基于潜在结果框架的因果统计分析方法,以[[Donald Rubin]]的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923).  Excerpts reprinted in English, Statistical Science, Vol. 5, pp.&nbsp;463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>[[Donald Rubin]]将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" />
    
== 思想介绍 ==
 
== 思想介绍 ==
第27行: 第27行:  
由于因果推理的根本问题,无法直接观察到单元级别的因果效应。然而,随机实验允许估计人口水平的因果效应。<ref name=":01">{{cite journal |last=Rubin |first=Donald |title=Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies |journal=Journal of Educational Psychology|volume=66 |issue=5 |year=1974 |pages=688–701 [p. 689] |doi=10.1037/h0037350 }}</ref>随机实验将人们随机分配到对照组:大学或非大学。由于这种随机分配,各组(平均)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的唯一差异。然后可以通过计算处理(上大学)和对照(非上大学)样本之间的平均值差异来获得平均因果效应(也称为平均处理效应)的估计值。
 
由于因果推理的根本问题,无法直接观察到单元级别的因果效应。然而,随机实验允许估计人口水平的因果效应。<ref name=":01">{{cite journal |last=Rubin |first=Donald |title=Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies |journal=Journal of Educational Psychology|volume=66 |issue=5 |year=1974 |pages=688–701 [p. 689] |doi=10.1037/h0037350 }}</ref>随机实验将人们随机分配到对照组:大学或非大学。由于这种随机分配,各组(平均)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的唯一差异。然后可以通过计算处理(上大学)和对照(非上大学)样本之间的平均值差异来获得平均因果效应(也称为平均处理效应)的估计值。
   −
然而,在许多情况下,由于伦理或实际问题,随机实验是不可能的。在这种情况下,存在非随机分配机制。上大学的例子就是这种情况:人们不是随机分配上大学的。相反,人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法,例如倾向得分匹配。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。
+
然而,在许多情况下,由于伦理或实际问题,随机实验是不可能的。在这种情况下,存在非随机分配机制。上大学的例子就是这种情况:人们不是随机分配上大学的。相反,人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法,例如[[倾向得分匹配]]。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。
 
== 样例介绍 ==
 
== 样例介绍 ==
 
假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的,我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应,或者说治疗效果,就是指这两种潜在结果之间的差异。
 
假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的,我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应,或者说治疗效果,就是指这两种潜在结果之间的差异。
第72行: 第72行:  
|−15
 
|−15
 
|}
 
|}
每个实验对象的因果效应是不同的。从该表中可知乔,玛丽和鲍勃的因果效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于莎莉 来说,这种药物会导致血压升高。
+
每个实验对象的因果效应是不同的。从该表中可知乔,玛丽和鲍勃的因果效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于莎莉来说,这种药物会导致血压升高。
    
为了让一个潜在的结果有意义,它必须是可测试的,至少是先验的。例如,如果乔在任何情况下都没有办法获得新药,那么他就不可能获得效应。这永远不可能发生在乔身上。如果不能观察到效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。
 
为了让一个潜在的结果有意义,它必须是可测试的,至少是先验的。例如,如果乔在任何情况下都没有办法获得新药,那么他就不可能获得效应。这永远不可能发生在乔身上。如果不能观察到效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。
    
== 没有干预就没有因果关系 ==
 
== 没有干预就没有因果关系 ==
新药的因果效应是明确定义的,因为它是两种可能发生的潜在结果的简单差异。在这种情况下,我们(或其他事物)可以干预世界,至少在概念上是这样,因此可能会发生不同的事。
+
新药的因果效应是明确定义的,因为它是两种可能发生的潜在结果的简单差异。在这种情况下,我们(或其他事物)可以[[干预]]世界,至少在概念上是这样,因此可能会发生不同的事。
    
如果永远不可能发生其中一种潜在结果,那么这种因果效应的定义就会变得更加棘手。例如,乔的身高对他的体重有什么因果关系?这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果:乔 在处理下的体重(处理被定义为增高3英寸)和 乔 在控制下的体重(控制被定义为他当前的身高)。
 
如果永远不可能发生其中一种潜在结果,那么这种因果效应的定义就会变得更加棘手。例如,乔的身高对他的体重有什么因果关系?这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果:乔 在处理下的体重(处理被定义为增高3英寸)和 乔 在控制下的体重(控制被定义为他当前的身高)。
第185行: 第185行:  
=== '''集智俱乐部文章''' ===
 
=== '''集智俱乐部文章''' ===
 
[https://mp.weixin.qq.com/s/vFDu-g2qy-sUfIl8EhrMJg Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响]
 
[https://mp.weixin.qq.com/s/vFDu-g2qy-sUfIl8EhrMJg Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响]
 +
 +
==='''集智课程'''===
 +
    
[https://swarma.org/?p=29559 因果推断的潜在结果框架在实验性研究的应用 | 周日直播·因果科学读书会 | 集智俱乐部 (swarma.org)]
 
[https://swarma.org/?p=29559 因果推断的潜在结果框架在实验性研究的应用 | 周日直播·因果科学读书会 | 集智俱乐部 (swarma.org)]
第190行: 第193行:  
[https://swarma.org/?p=24656 两套因果框架深度剖析:潜在结果模型与结构因果模型 | 因果科学读书会 | 集智俱乐部 (swarma.org)]
 
[https://swarma.org/?p=24656 两套因果框架深度剖析:潜在结果模型与结构因果模型 | 因果科学读书会 | 集智俱乐部 (swarma.org)]
   −
=== '''集智课程''' ===
   
[https://campus.swarma.org/course/3527 因果科学读书会第三季:因果+X (swarma.org)]
 
[https://campus.swarma.org/course/3527 因果科学读书会第三季:因果+X (swarma.org)]