“主分层”的版本间的差异
(→集智课程) |
|||
第4行: | 第4行: | ||
}} | }} | ||
− | '''主分层 Principal stratification'''是一种应用于因果推断的统计技术,它根据处置后协变量来调整因果效应。其基本思想是识别潜在的分层结构,然后只计算每一层的因果效应。这就是所谓的'''局部平均处理效应 local average treatment effect(LATE)'''。 | + | '''主分层 Principal stratification'''是指按照某处理后变量的潜在结果对总体分层,然后考察某一层内的因果作用,例如含有非依从性的试验中的依从者,含有死亡截断的试验中的永远幸存者'''。它'''是一种应用于因果推断的统计技术,它根据处置后协变量来调整因果效应。其基本思想是识别潜在的分层结构,然后只计算每一层的因果效应。这就是所谓的'''局部平均处理效应 local average treatment effect(LATE)'''。 |
在从在非依从现象时,我们能够识别的只是依从者——也就是人群中的某一“层”的平均因果作用。Frangakis和Rubin把这一观察总结为主分层(principal stratification)的概念,即按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。 | 在从在非依从现象时,我们能够识别的只是依从者——也就是人群中的某一“层”的平均因果作用。Frangakis和Rubin把这一观察总结为主分层(principal stratification)的概念,即按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。 | ||
第14行: | 第14行: | ||
# 只有在分配到处置组时才退出的受试者; | # 只有在分配到处置组时才退出的受试者; | ||
# 只有在分配到对照组时才退出的受试者。 | # 只有在分配到对照组时才退出的受试者。 | ||
− | |||
− | |||
− | |||
如果研究人员知道每个受试者属于哪种情形,那么研究人员只需比较第一种情况下的结果,并估计出对该群提有效的因果效应。然而,研究人员并不知道这些信息,因此这种方法需要模型假设。 | 如果研究人员知道每个受试者属于哪种情形,那么研究人员只需比较第一种情况下的结果,并估计出对该群提有效的因果效应。然而,研究人员并不知道这些信息,因此这种方法需要模型假设。 | ||
− | |||
− | |||
使用主分层框架还允许为估计效应提供界限(在不同的界限假设下) ,这在退出偏移的情况下很常见。 | 使用主分层框架还允许为估计效应提供界限(在不同的界限假设下) ,这在退出偏移的情况下很常见。 | ||
第57行: | 第52行: | ||
*[[工具变量]] | *[[工具变量]] | ||
*[[虚拟事实模型]] | *[[虚拟事实模型]] | ||
− | |||
− | |||
==参考文献== | ==参考文献== | ||
*{{Cite journal|doi=10.1111/j.0006-341X.2002.00021.x |first1=Constantine E. |last1=Frangakis |first2=Donald B. |last2=Rubin |title=Principal stratification in causal inference |journal=Biometrics |volume=58 |issue=1 |pages=21–9 |date=March 2002 |pmid=11890317|pmc=4137767 }} [http://www.biostat.jhsph.edu/~cfrangak/papers/preffects.pdf Preprint] | *{{Cite journal|doi=10.1111/j.0006-341X.2002.00021.x |first1=Constantine E. |last1=Frangakis |first2=Donald B. |last2=Rubin |title=Principal stratification in causal inference |journal=Biometrics |volume=58 |issue=1 |pages=21–9 |date=March 2002 |pmid=11890317|pmc=4137767 }} [http://www.biostat.jhsph.edu/~cfrangak/papers/preffects.pdf Preprint] | ||
第99行: | 第92行: | ||
* [https://pattern.swarma.org/path?id=9 因果推断方法概述],这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。 | * [https://pattern.swarma.org/path?id=9 因果推断方法概述],这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。 | ||
* [https://pattern.swarma.org/path?id=90 因果科学和 Causal AI入门路径],这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。 | * [https://pattern.swarma.org/path?id=90 因果科学和 Causal AI入门路径],这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。 | ||
− | |||
− | |||
---- | ---- |
2022年8月8日 (一) 20:28的版本
主分层 Principal stratification是指按照某处理后变量的潜在结果对总体分层,然后考察某一层内的因果作用,例如含有非依从性的试验中的依从者,含有死亡截断的试验中的永远幸存者。它是一种应用于因果推断的统计技术,它根据处置后协变量来调整因果效应。其基本思想是识别潜在的分层结构,然后只计算每一层的因果效应。这就是所谓的局部平均处理效应 local average treatment effect(LATE)。
在从在非依从现象时,我们能够识别的只是依从者——也就是人群中的某一“层”的平均因果作用。Frangakis和Rubin把这一观察总结为主分层(principal stratification)的概念,即按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。
示例1
主分层的一个例子是随机对照试验的退出偏移问题。使用处置后的二元协变量(例如:退出)和二元处置变量(例如:“处置”和“对照”) ,受试者可能有四种情形:
- 总是留在研究中的受试者,不管他们被分配了哪种治疗;
- 总是会退出研究的受试者,不管他们被分配了哪种治疗 ;
- 只有在分配到处置组时才退出的受试者;
- 只有在分配到对照组时才退出的受试者。
如果研究人员知道每个受试者属于哪种情形,那么研究人员只需比较第一种情况下的结果,并估计出对该群提有效的因果效应。然而,研究人员并不知道这些信息,因此这种方法需要模型假设。
使用主分层框架还允许为估计效应提供界限(在不同的界限假设下) ,这在退出偏移的情况下很常见。
在评价研究应用中,主成分层通常被称为内生 endogenous层或亚群体 subgroups,并涉及专门的分析方法,用来检查医学和社会科学中的干预或处置的效果。
示例2
考虑一项激励试验,医生随机地鼓励或不鼓励患者打疫苗。实际上,患者即使被鼓励打疫苗,他也有可能不打疫苗,而没有被鼓励的患者也可能自己去打疫苗。用Z表示医生是否鼓励患者打疫苗(Z=1表示鼓励,Z=0表示不鼓励),用A表示患者实际上是否打了疫苗(A=1表示打疫苗了,A=0表示没有打疫苗),用Y表示患者是否得了流感(Y=1表示得流感,Y=0表示没有得流感)。注意到A可以表示为Z的潜在结果,记为A(z);Y可以表示为Z和A的潜在结果,记为Y(z,a)。我们可以根据A(z)把人群分为四层:
a) A(0)=0, A(1)=0。即无论医生是否鼓励打疫苗,患者都不会打疫苗,称这些人为拒不服药者。
b) A(0)=1, A(1)=1。即无论医生是否鼓励打疫苗,患者都会打疫苗,称这些人为永远服药者。
c) A(1)=1, A(0)=0。即患者会按照医生的建议打疫苗,称这些人为依从者。
d) A(0)=1, A(1)=0。即患者会做出与医生建议相反的决策,称这些人为抵抗者。
假设排他性成立,即Y(0,a)=Y(1,a),一个人是否会得流感只依赖于他有没有打疫苗,与医生是否鼓励他并不直接相关。稍加观察我们就会发现,第a组人和第b组人对于估计打疫苗的真正作用是没有帮助的,因为他们得流感的潜在结果都相等,要么都是Y(0),要么都是Y(1)。只有第c组人和第d组人对于估计打疫苗的真正因故作用有帮助,因为对于这两组人来说,每一组内同时存在打疫苗的人和不打疫苗的人。
医学上常用意向治疗策略来描述激励试验,用E[Y|Z=1]-E[Y|Z=0]来描述鼓励患者打疫苗带来的作用。然而,这个量并没有因果解释,它并不能反映打疫苗的因果作用。利用主分层的框架,我们就能清楚地看到,只有在依从者或抵抗者这两个人群上才能定义因果作用。如果再假设单调性,认为抵抗者不存在,那么感兴趣的因果量就只能在依从者中定义了,这个量也就是前面提到的依从者平均因果作用了。
当然,主分层也能处理非依从以外的问题。假设我们想要知道某种治疗方案对于患者生活质量的改善情况,记Z为治疗方案(Z=1为积极治疗,Z=0为保守治疗),记Y为治疗两年后生活质量是否改善(Y=1为改善,Y=0为未改善),Y是Z的潜在结果,记为Y(z)。实际研究常遇到的一个问题是,患者可能再两年内死掉,导致收集不到结局变量。试想一下,如果一个人没有活着,那谈论他的生活质量还有意义吗?所以,只有对存活个体,才能定义结局变量,这一问题被叫作死亡截断问题。用S表示个体的存活状态(S=1表示存活,S=0表示死亡),S其实是Z的潜在结果,记为S(z)。按照S(z)可以把人群分为四层:
a) S(0)=0, S(1)=0。即无论采取何种治疗方案,患者都会死亡。
b) S(0)=1, S(1)=1。即无论采取何种治疗方案,患者都会存活。
c) S(1)=1, S(0)=0。即如果接受积极治疗会存活,如果接受保守治疗会死亡。
d) S(0)=1, S(1)=0。即如果接受积极治疗会死亡,如果接受保守治疗会存活。
对于第a、c、d这三组人群,至少有一个潜在结果Y(z)是无定义的,所以在这三层中我们无法给出良定义的因果参数。只有第b组人群的两个潜在结果Y(z)都有定义,我们可以在这一层内定义幸存者平均因果作用,即E[Y(1)-Y(0)|S(0)=1,S(1)=1]。
仅仅通过观察数据无法判断出一个个体属于哪个主层,所以需要为所定义的因果量找到合理的解释才有实际意义。值得一提的是,死亡截断的问题在其他领域中也会遇到。比如要研究给学生奖学金能否会提高学生成绩,学生成绩只有在其不辍学时才能定义;要研究疫苗对于病毒载量的影响,病毒载量只有当一个人感染了才能定义。
另见
参考文献
- Frangakis, Constantine E.; Rubin, Donald B. (March 2002). "Principal stratification in causal inference". Biometrics. 58 (1): 21–9. doi:10.1111/j.0006-341X.2002.00021.x. PMC 4137767. PMID 11890317. Preprint
- Zhang, Junni L.; Rubin, Donald B. (2003) "Estimation of Causal Effects via Principal Stratification When Some Outcomes are Truncated by "Death"", Journal of Educational and Behavioral Statistics, 28: 353–368 doi:10.3102/10769986028004353
- Barnard, John; Frangakis, Constantine E.; Hill, Jennifer L.; Rubin, Donald B. (2003) "Principal Stratification Approach to Broken Randomized Experiments", Journal of the American Statistical Association, 98, 299–323 doi:10.1198/016214503000071
- Roy, Jason; Hogan, Joseph W.; Marcus, Bess H. (2008) "Principal stratification with predictors of compliance for randomized trials with 2 active treatments", Biostatistics, 9 (2), 277–289. doi:10.1093/biostatistics/kxm027
- Egleston, Brian L.; Cropsey, Karen L.; Lazev, Amy B.; Heckman, Carolyn J.; (2010) "A tutorial on principal stratification-based sensitivity analysis: application to smoking cessation studies", Clinical Trials, 7 (3), 286–298. doi:10.1177/1740774510367811
- Peck, L. R.; (2013) "On estimating experimental impacts on endogenous subgroups: Part one of a methods note in three parts", American Journal of Evaluation, 34 (2), 225–236.
编者推荐
课程推荐
这个视频内容来自集智俱乐部读书会因果科学读书会第三季内容的分享, 主题是”因果推断在医学、药学、生物学中的应用“,由北京大学数学科学学院统计学2018级博士生邓宇昊分享。本
次分享关注因果推断框架在近二十年的两项重要进展:主分层(principal stratification)和再随机化(rerandomization)。
1.主分层。主分层的思路是根据处理后、结局前的潜在中间变量对总体进行分层,由于潜在中间变量(潜在结果)不受处理分配的影响,因此主层可被看作是处理前的基线协变量。主分层通常被
应用于两个场景中:非依从和死亡截断,尽管也存在其他场景。
2.再随机化。当面临不合适的随机分配时,Fisher建议进行再随机化。Morgan和Rubin首次对再随机化进行了正规的数学描述,其基本思路是:预先指定某种衡量协变量在不同处理组之间分布是
否平衡的准则,不采纳那些协变量不平衡的随机分配,而是一直进行随机化,直到获得协变量平衡的随机分配为止。Morgan和Rubin建议使用处理组和对照组协变量均值的平方马氏距离作为准
则,只接受平方马氏距离小于某个阈值的随机分配。他们还指出,通过再随机化,可以实现平均因果作用估计的方差下降。
文章总结
北京大学数学科学学院概率统计系的丁鹏老师在因果推断一文中第四章第一节详细介绍了主分层与工具变量
相关路径
- 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
- 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
- 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。
本中文词条由Jlyt007翻译,薄荷编辑,如有问题,欢迎在讨论页面留言。
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。