第20行: |
第20行: |
| 使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。 | | 使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。 |
| | | |
− | '''从分析潜在结果出发,y也诞生了<font color="#ff8000">潜在结果框架,有时也称为[[鲁宾因果框架]]</font>Rubin Causal Model (RCM)''' ,[[Neyman-Rubin 因果模型]]<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>。它是一种基于潜在结果框架的因果统计分析方法,以[[Donald Rubin]]的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>[[Donald Rubin]]将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" /> | + | '''从分析潜在结果出发,也诞生了<font color="#ff8000">潜在结果框架,有时也称为[[鲁宾因果框架]]</font>Rubin Causal Model (RCM)''' ,[[Neyman-Rubin 因果模型]]<ref name="sekhon">{{cite book |last=Sekhon |first=Jasjeet |chapter=The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods |title=The Oxford Handbook of Political Methodology |year=2007 |chapter-url=http://sekhon.berkeley.edu/papers/SekhonOxfordHandbook.pdf }}</ref>。它是一种基于潜在结果框架的因果统计分析方法,以[[Donald Rubin]]的名字命名。“鲁宾因果模型”这个名字最早是由 Paul W. Holland 创造的。 <ref name="holland:causal86">{{cite journal |last=Holland |first=Paul W. |title=Statistics and Causal Inference |journal=Journal of the American Statistical Association |volume=81 |issue=396 |year=1986 |pages=945–960 |jstor=2289064 |doi=10.1080/01621459.1986.10478354}}</ref> '''<font color="#ff8000"> 潜在结果框架 Potential Outcomes Framework</font>'''最初是由 Jerzy Neyman 在他 1923 年的硕士论文中提出的,<ref name="neyman:masters">Neyman, Jerzy. ''Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes.'' Master's Thesis (1923). Excerpts reprinted in English, Statistical Science, Vol. 5, pp. 463–472. (Dorota Dabrowska, and T. P. Speed, Translators.)</ref>尽管他只在完全随机实验的背景下讨论了它。 <ref name="Jasa1">{{cite journal |last=Rubin |first=Donald |year=2005 |title=Causal Inference Using Potential Outcomes |journal=Journal of the American Statistical Association|volume=100 |issue=469 |pages=322–331 |doi=10.1198/016214504000001880 }}</ref>[[Donald Rubin]]将其扩展为在观察性和实验性研究中思考因果关系的一般框架。<ref name="sekhon" /> |
| | | |
| == 思想介绍 == | | == 思想介绍 == |
| [[鲁宾因果框架|潜在结果模型]]是基于潜在结果的想法。例如,如果一个人上过大学,他在 40 岁时会有特定的收入,而如果他没有上过大学,他在 40 岁时会有不同的收入。为了衡量这个人上大学的因果效应,我们需要比较同一个人在两种不同的未来中的结果。由于不可能同时看到两种潜在结果,因此总是缺少其中一种潜在结果。这种困境就是“因果推理的基本问题”。 | | [[鲁宾因果框架|潜在结果模型]]是基于潜在结果的想法。例如,如果一个人上过大学,他在 40 岁时会有特定的收入,而如果他没有上过大学,他在 40 岁时会有不同的收入。为了衡量这个人上大学的因果效应,我们需要比较同一个人在两种不同的未来中的结果。由于不可能同时看到两种潜在结果,因此总是缺少其中一种潜在结果。这种困境就是“因果推理的基本问题”。 |
| | | |
− | 由于因果推理的根本问题,无法直接观察到单元级别的因果效应。然而,随机实验允许估计人口水平的因果效应。<ref name=":01">{{cite journal |last=Rubin |first=Donald |title=Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies |journal=Journal of Educational Psychology|volume=66 |issue=5 |year=1974 |pages=688–701 [p. 689] |doi=10.1037/h0037350 }}</ref>随机实验将人们随机分配到对照组:大学或非大学。由于这种随机分配,各组(平均)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的唯一差异。然后可以通过计算处理(上大学)和对照(非上大学)样本之间的平均值差异来获得平均因果效应(也称为平均处理效应)的估计值。
| + | 因果推理的基本问题无法直接观察到单元级别的因果效应。但由于随机实验允许估计人口水平的因果效应。<ref name=":01">{{cite journal |last=Rubin |first=Donald |title=Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies |journal=Journal of Educational Psychology|volume=66 |issue=5 |year=1974 |pages=688–701 [p. 689] |doi=10.1037/h0037350 }}</ref> 故可利用随机实验将人们随机分配到对照组:即大学或非大学。由于按照这样的方式进行随机分配,各组(平均)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的唯一差异。然后可以通过计算处理(上大学)和对照(非上大学)样本之间的平均值差异来获得平均因果效应(也称为平均处理效应)的估计值。 |
| | | |
| 然而,在许多情况下,由于伦理或实际问题,随机实验是不可能的。在这种情况下,存在非随机分配机制。上大学的例子就是这种情况:人们不是随机分配上大学的。相反,人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法,例如[[倾向得分匹配]]。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。 | | 然而,在许多情况下,由于伦理或实际问题,随机实验是不可能的。在这种情况下,存在非随机分配机制。上大学的例子就是这种情况:人们不是随机分配上大学的。相反,人们可能会根据他们的经济状况、父母的教育等来选择上大学。已经开发了许多用于因果推断的统计方法,例如[[倾向得分匹配]]。这些方法试图通过寻找类似于处理单元的控制单元来纠正分配机制。 |
第45行: |
第45行: |
| 从这个表格中我们只知道对乔的因果效应。研究中的其他人如果服用新药,血压可能会升高。然而,不管其他受试者的因果效应如何,我们可以得出结论,对于乔来说,相比于他没有服用新药的情况,服用该药,他的血压会降低。 | | 从这个表格中我们只知道对乔的因果效应。研究中的其他人如果服用新药,血压可能会升高。然而,不管其他受试者的因果效应如何,我们可以得出结论,对于乔来说,相比于他没有服用新药的情况,服用该药,他的血压会降低。 |
| | | |
− | 考虑更多的病患样本
| + | 考虑更多的病患样本,发现每个实验对象的因果效应是不同的。 |
| {| class="wikitable" | | {| class="wikitable" |
| !subject | | !subject |
第72行: |
第72行: |
| |−15 | | |−15 |
| |} | | |} |
− | 每个实验对象的因果效应是不同的。从该表中可知乔,玛丽和鲍勃的因果效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于莎莉来说,这种药物会导致血压升高。
| + | 从该表中可知乔,玛丽和鲍勃的因果效应为负值,说明药物仅对乔,玛丽和鲍勃起作用。他们服用这种药物后的血压比没有服用这种药物时的血压要低。另一方面,对于莎莉来说,这种药物会导致血压升高。 |
| | | |
− | 为了让一个潜在的结果有意义,它必须是可测试的,至少是先验的。例如,如果乔在任何情况下都没有办法获得新药,那么他就不可能获得效应。这永远不可能发生在乔身上。如果不能观察到效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。
| + | 在此基础上,必须明确:为了让一个潜在的结果有意义,它必须是可测试的,至少是先验的。 |
| + | |
| + | 即:如果乔在任何情况下都没有办法获得新药,那么他就不可能获得因果效应。这永远不可能发生在乔身上。如果不能观察到因果效应,即使在理论上,那么治疗对乔的血压的因果效应也不能确定。 |
| | | |
| == 没有干预就没有因果关系 == | | == 没有干预就没有因果关系 == |
− | 新药的因果效应是明确定义的,因为它是两种可能发生的潜在结果的简单差异。在这种情况下,我们(或其他事物)可以[[干预]]世界,至少在概念上是这样,因此可能会发生不同的事。
| + | 以上述的例子为例,新药的因果效应是明确定义的,因为它是两种可能发生的潜在结果的简单差异。在这种情况下,我们(或其他事物)可以[[干预]]世界,至少在概念上是这样,因此可能会发生不同的事。 |
| | | |
| 如果永远不可能发生其中一种潜在结果,那么这种因果效应的定义就会变得更加棘手。例如,乔的身高对他的体重有什么因果关系?这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果:乔 在处理下的体重(处理被定义为增高3英寸)和 乔 在控制下的体重(控制被定义为他当前的身高)。 | | 如果永远不可能发生其中一种潜在结果,那么这种因果效应的定义就会变得更加棘手。例如,乔的身高对他的体重有什么因果关系?这似乎与我们的其他示例相似。我们只需要比较两个潜在的结果:乔 在处理下的体重(处理被定义为增高3英寸)和 乔 在控制下的体重(控制被定义为他当前的身高)。 |
| | | |
− | 问题在于:我们无法增加乔的身高。没有办法观察如果乔更高,他的体重会是多少,因为我们没有办法干预乔的身高从而让他变得更高,这就让研究乔的身高和体重的因果关系变得没有意义。因此有一个口号:没有干预就没有因果关系。
| + | 问题在于:我们无法增加乔的身高。没有办法观察如果乔更高,他的体重会是多少,因为我们没有办法[[干预]]乔的身高从而让他变得更高,这就让研究乔的身高和体重的因果关系变得没有意义。由此可说,没有[[干预]]就没有因果关系。 |
| | | |
| == 个体处理稳定性假设 (SUTVA) == | | == 个体处理稳定性假设 (SUTVA) == |
− | 我们要求“对一个个体 [潜在结果] 的观察不应受到其他个体的特定处理分配的影响”(Cox 1958,第 2.4 节)。这被称为个体处理稳定性假设(SUTVA),它超越了独立性的概念。
| + | 我们要求“对一个个体潜在结果的观察不应受到其他个体的特定处理分配的影响”(Cox 1958,第 2.4 节)。这被称为个体处理稳定性假设(SUTVA),它超越了独立性的概念。 |
| | | |
| 在我们的例子中,乔 的血压不应该取决于 玛丽 是否接受了药物。但如果真的发生了呢?假设乔和玛丽住在同一所房子里,玛丽总是做饭。这种药物会导致玛丽渴望咸的食物,所以如果她服用这种药物,她会用比其他情况下更多的盐来烹饪。高盐饮食会增加乔的血压。因此,乔的血压结果将同时取决于他接受的处理和玛丽接受的处理。 | | 在我们的例子中,乔 的血压不应该取决于 玛丽 是否接受了药物。但如果真的发生了呢?假设乔和玛丽住在同一所房子里,玛丽总是做饭。这种药物会导致玛丽渴望咸的食物,所以如果她服用这种药物,她会用比其他情况下更多的盐来烹饪。高盐饮食会增加乔的血压。因此,乔的血压结果将同时取决于他接受的处理和玛丽接受的处理。 |
| | | |
− | 在不满足SUTVA的情况下,因果推断会更加困难。我们可以通过考虑更多的处理来解释相关的观察结果。我们通过考虑 玛丽 是否接受处理来创建 4 个处理。 | + | 在不满足SUTVA的情况下,因果推断会更加困难。我们可以通过考虑更多的处理来解释相关的观察结果。我们通过考虑 玛丽 是否接受处理来对问题进行分析: |
| {| class="wikitable" align="center" | | {| class="wikitable" align="center" |
| !主题||乔 = c,玛丽 = t||乔 = t,玛丽 = t||乔 = c,玛丽 = c||乔 = t,玛丽 = c | | !主题||乔 = c,玛丽 = t||乔 = t,玛丽 = t||乔 = c,玛丽 = c||乔 = t,玛丽 = c |