第8行: |
第8行: |
| | | |
| == 概念来源 == | | == 概念来源 == |
− | '''鲁宾因果模型 Rubin Causal Model (RCM)''' ,也称为 '''Neyman-Rubin 因果模型''',<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>是一种基于潜在结果框架的因果统计分析方法,以Donald Rubin的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>鲁宾将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" /> | + | 潜在结果最初的提出是在Neyman的论文[1]中,但是这篇文章只在随机对照试验中使用了潜在结果的概念,且直到1990年翻译成英文后才为人所知。Rubin在他1974年的论文中也提出了潜在结果的概念,并将这个概念推广到了观察性数据中[2],真正开启了统计学界对因果推断的广泛研究。 |
| + | |
| + | 何为潜在结果?又如何基于潜在结果定义因果?假设我们关心某个变量A(例如,在某个时间点是否服用阿莫西林,A=1是服用,A=0是没有服用)对Y(服用后三小时的是否还感冒,Y=1表示感冒,Y=0表示没有感冒)的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态:一个是如果他服药,他三小时后是否感冒,不妨记作Y(1);另一个如果他没有服药,他三小时后是否感冒,不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。(注意,在实际中,Y(1)和Y(0)这二者中只有一个可以被观察到。另外,严格地说,此处实际上做了“个体处理值稳定”即SUTVA的假设)那么对这个人,就可能有以下四种情况: |
| + | |
| + | a) Y(0)=0, Y(1)=0。即不论吃不吃药,这个人在三小时后均不会感冒。 |
| + | |
| + | b) Y(0)=1, Y(1)=1。即不论吃不吃药,这个人在三小时后均会感冒。 |
| + | |
| + | c) Y(0)=1, Y(1)=0。即此人如果不吃药,三小时后会感冒,但是如果吃药,三小时后不会感冒。 |
| + | |
| + | d) Y(0)=0, Y(1)=1。即此人如果不吃药,三小时后不会感冒,但是如果吃药,三小时后会感冒。 |
| + | |
| + | 在a和b两种情况下,Y(1)=Y(0),即吃不吃药不会影响三小时后是否感冒的状态,这种情况下我们说吃药对三小时后是否感冒没有因果作用,相反,在c和d两种情况下,Y(1)≠Y(0),这种情况下我们说吃药对三小时后是否感冒有因果作用。使用潜在结果,我们便可以方便地定义感兴趣的因果作用,例如平均因果效应E[Y(1)-Y(0)],这个量代表了在一个群体中,如果每一个人都采取某种处理和都不接受处理相比,这两种情况下平均意义上的结果差值。 |
| + | |
| + | 使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。 |
| + | |
| + | '''与此同时,也诞生了<font color="#ff8000">潜在结果框架,有时也称为</font>鲁宾因果模型 Rubin Causal Model (RCM)''' ,'''Neyman-Rubin 因果模型'''<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>。它是一种基于潜在结果框架的因果统计分析方法,以Donald Rubin的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>鲁宾将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" /> |
| | | |
| == 思想介绍 == | | == 思想介绍 == |
第20行: |
第36行: |
| | | |
| == 样例介绍 == | | == 样例介绍 == |
− | 【终译】假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的,我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应,或者说治疗效果,就是指这两种潜在结果之间的差异。
| + | 假设乔正在参与 FDA 对一种新的高血压药物的测试。如果我们是无所不知的,我们就会知道乔在治疗组和控制组下的结果。我们想要探究的因果效应,或者说治疗效果,就是指这两种潜在结果之间的差异。 |
| {| class="wikitable" | | {| class="wikitable" |
| !subject | | !subject |
第32行: |
第48行: |
| |−5 | | |−5 |
| |} | | |} |
− | 【终译】 Yt(u) 表示如果乔服用了这种新药物之后对应的血压。一般来说,这个符号表示一个单位 u 上的治疗结果 t 的潜在结果。类似地,Yc (u)是一个单位 u 上的不同治疗效果 c 的潜在结果或控制组的结果。Yc (u)若表示控制组,则在这种情况下,Yt (u)-Yc (u)就是表示乔不吃这种新药物时的血压,也就是服用这种新药物的因果效应。
| + | Yt(u) 表示如果乔服用了这种新药物之后对应的血压。一般来说,这个符号表示一个单位 u 上的治疗结果 t 的潜在结果。类似地,Yc (u)是一个单位 u 上的不同治疗效果 c 的潜在结果或控制组的结果。Yc (u)若表示控制组,则在这种情况下,Yt (u)-Yc (u)就是表示乔不吃这种新药物时的血压,也就是服用这种新药物的因果效应。 |
| | | |
− | 【终译】从这个表格中我们只知道对乔的因果效应。研究中的其他人如果服用新药,血压可能会升高。然而,不管其他受试者的因果效应如何,我们可以得出结论,对于乔来说,相比于他没有服用新药的情况,服用该药,他的血压会降低。
| + | 从这个表格中我们只知道对乔的因果效应。研究中的其他人如果服用新药,血压可能会升高。然而,不管其他受试者的因果效应如何,我们可以得出结论,对于乔来说,相比于他没有服用新药的情况,服用该药,他的血压会降低。 |
| | | |
− | 【终译】考虑更为大量的病患样本
| + | 考虑更为大量的病患样本 |
| {| class="wikitable" | | {| class="wikitable" |
| !subject | | !subject |
第63行: |
第79行: |
| |−15 | | |−15 |
| |} | | |} |
− | 【终译】每个实验对象的因果效应是不同的,从该表中,可知效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于 Sally 来说,这种药物会导致血压升高。
| + | 每个实验对象的因果效应是不同的,从该表中,可知效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于 Sally 来说,这种药物会导致血压升高。 |
| | | |
− | 【终译】为了让一个潜在的结果有意义,它必须是可能的,至少是先验的。例如,如果乔在任何情况下都没有办法获得新药,那么他就不可能获得效应。这永远不可能发生在乔身上。如果不能观察到效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。
| + | 为了让一个潜在的结果有意义,它必须是可能的,至少是先验的。例如,如果乔在任何情况下都没有办法获得新药,那么他就不可能获得效应。这永远不可能发生在乔身上。如果不能观察到效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。 |
| | | |
| == 没有操纵就没有因果关系 == | | == 没有操纵就没有因果关系 == |
第172行: |
第188行: |
| | | |
| * [[鲁宾因果框架]] | | * [[鲁宾因果框架]] |
| + | |
| + | == 编者推荐 == |
| + | [https://mp.weixin.qq.com/s/vFDu-g2qy-sUfIl8EhrMJg Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响] |
| | | |
| == 参考文献 == | | == 参考文献 == |
| <references /> | | <references /> |