更改

添加4,388字节 、 2022年6月5日 (日) 23:06
无编辑摘要
第6行: 第6行:  
'''主分层 Principal stratification'''是一种应用于因果推断的统计技术,它根据处置后协变量来调整因果效应。其基本思想是识别潜在的分层结构,然后只计算每一层的因果效应。这就是所谓的'''局部平均处理效应 local average treatment effect(LATE)'''。
 
'''主分层 Principal stratification'''是一种应用于因果推断的统计技术,它根据处置后协变量来调整因果效应。其基本思想是识别潜在的分层结构,然后只计算每一层的因果效应。这就是所谓的'''局部平均处理效应 local average treatment effect(LATE)'''。
   −
 
+
在从在非依从现象时,我们能够识别的只是依从者——也就是人群中的某一“层”的平均因果作用。Frangakis和Rubin把这一观察总结为主分层(principal stratification)的概念,即按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。
==示例==
+
==示例1==
 
主分层的一个例子是随机对照试验的退出偏移问题。使用处置后的二元协变量(例如:退出)和二元处置变量(例如:“处置”和“对照”) ,受试者可能有四种情形:
 
主分层的一个例子是随机对照试验的退出偏移问题。使用处置后的二元协变量(例如:退出)和二元处置变量(例如:“处置”和“对照”) ,受试者可能有四种情形:
   第14行: 第14行:  
# 只有在分配到处置组时才退出的受试者;
 
# 只有在分配到处置组时才退出的受试者;
 
# 只有在分配到对照组时才退出的受试者。
 
# 只有在分配到对照组时才退出的受试者。
 +
       
如果研究人员知道每个受试者属于哪种情形,那么研究人员只需比较第一种情况下的结果,并估计出对该群提有效的因果效应。然而,研究人员并不知道这些信息,因此这种方法需要模型假设。
 
如果研究人员知道每个受试者属于哪种情形,那么研究人员只需比较第一种情况下的结果,并估计出对该群提有效的因果效应。然而,研究人员并不知道这些信息,因此这种方法需要模型假设。
 +
       
使用主分层框架还允许为估计效应提供界限(在不同的界限假设下) ,这在退出偏移的情况下很常见。
 
使用主分层框架还允许为估计效应提供界限(在不同的界限假设下) ,这在退出偏移的情况下很常见。
    +
在评价研究应用中,主成分层通常被称为'''内生 endogenous'''层或'''亚群体 subgroups''',并涉及专门的分析方法,用来检查医学和社会科学中的干预或处置的效果。
   −
在评价研究应用中,主成分层通常被称为'''内生 endogenous'''层或'''亚群体 subgroups''',并涉及专门的分析方法,用来检查医学和社会科学中的干预或处置的效果。
+
== 示例2 ==
 +
考虑一项激励试验,医生随机地鼓励或不鼓励患者打疫苗。实际上,患者即使被鼓励打疫苗,他也有可能不打疫苗,而没有被鼓励的患者也可能自己去打疫苗。用Z表示医生是否鼓励患者打疫苗(Z=1表示鼓励,Z=0表示不鼓励),用A表示患者实际上是否打了疫苗(A=1表示打疫苗了,A=0表示没有打疫苗),用Y表示患者是否得了流感(Y=1表示得流感,Y=0表示没有得流感)。注意到A可以表示为Z的潜在结果,记为A(z);Y可以表示为Z和A的潜在结果,记为Y(z,a)。我们可以根据A(z)把人群分为四层:
 +
 
 +
a) A(0)=0, A(1)=0。即无论医生是否鼓励打疫苗,患者都不会打疫苗,称这些人为拒不服药者。
 +
 
 +
b) A(0)=1, A(1)=1。即无论医生是否鼓励打疫苗,患者都会打疫苗,称这些人为永远服药者。
 +
 
 +
c) A(1)=1, A(0)=0。即患者会按照医生的建议打疫苗,称这些人为依从者。
 +
 
 +
d) A(0)=1, A(1)=0。即患者会做出与医生建议相反的决策,称这些人为抵抗者。
 +
 
 +
假设排他性成立,即Y(0,a)=Y(1,a),一个人是否会得流感只依赖于他有没有打疫苗,与医生是否鼓励他并不直接相关。稍加观察我们就会发现,第a组人和第b组人对于估计打疫苗的真正作用是没有帮助的,因为他们得流感的潜在结果都相等,要么都是Y(0),要么都是Y(1)。只有第c组人和第d组人对于估计打疫苗的真正因故作用有帮助,因为对于这两组人来说,每一组内同时存在打疫苗的人和不打疫苗的人。
 +
 
 +
医学上常用意向治疗策略来描述激励试验,用E[Y|Z=1]-E[Y|Z=0]来描述鼓励患者打疫苗带来的作用。然而,这个量并没有因果解释,它并不能反映打疫苗的因果作用。利用主分层的框架,我们就能清楚地看到,只有在依从者或抵抗者这两个人群上才能定义因果作用。如果再假设单调性,认为抵抗者不存在,那么感兴趣的因果量就只能在依从者中定义了,这个量也就是前面提到的依从者平均因果作用了。
 +
 
 +
当然,主分层也能处理非依从以外的问题。假设我们想要知道某种治疗方案对于患者生活质量的改善情况,记Z为治疗方案(Z=1为积极治疗,Z=0为保守治疗),记Y为治疗两年后生活质量是否改善(Y=1为改善,Y=0为未改善),Y是Z的潜在结果,记为Y(z)。实际研究常遇到的一个问题是,患者可能再两年内死掉,导致收集不到结局变量。试想一下,如果一个人没有活着,那谈论他的生活质量还有意义吗?所以,只有对存活个体,才能定义结局变量,这一问题被叫作死亡截断问题。用S表示个体的存活状态(S=1表示存活,S=0表示死亡),S其实是Z的潜在结果,记为S(z)。按照S(z)可以把人群分为四层:
 +
 
 +
a) S(0)=0, S(1)=0。即无论采取何种治疗方案,患者都会死亡。
 +
 
 +
b) S(0)=1, S(1)=1。即无论采取何种治疗方案,患者都会存活。
 +
 
 +
c) S(1)=1, S(0)=0。即如果接受积极治疗会存活,如果接受保守治疗会死亡。
 +
 
 +
d) S(0)=1, S(1)=0。即如果接受积极治疗会死亡,如果接受保守治疗会存活。
 +
 
 +
对于第a、c、d这三组人群,至少有一个潜在结果Y(z)是无定义的,所以在这三层中我们无法给出良定义的因果参数。只有第b组人群的两个潜在结果Y(z)都有定义,我们可以在这一层内定义幸存者平均因果作用,即E[Y(1)-Y(0)|S(0)=1,S(1)=1]。
    +
仅仅通过观察数据无法判断出一个个体属于哪个主层,所以需要为所定义的因果量找到合理的解释才有实际意义。值得一提的是,死亡截断的问题在其他领域中也会遇到。比如要研究给学生奖学金能否会提高学生成绩,学生成绩只有在其不辍学时才能定义;要研究疫苗对于病毒载量的影响,病毒载量只有当一个人感染了才能定义。
    
==另见==
 
==另见==