倾向评分
定义
记X为协变量,W为处理变量,倾向得分(Propensity score)定义为
[math]\displaystyle{ e(x)=P(W=1|X=x) }[/math]
性质
给定倾向得分e(X)的值,协变量分布在处理组和对照组间是平衡的,即倾向得分是平衡得分:
[math]\displaystyle{ X \perp W|e(X) }[/math]
记Y(w)为处理w对应的潜在结果,Y为观测到的结局,那么在无混淆性假设[math]\displaystyle{ W \perp (Y(1),Y(0))|X }[/math]下,有
[math]\displaystyle{ W \perp (Y(1),Y(0))|e(X) }[/math]
因此,只要给定了倾向得分,潜在结果就和处理变量独立。为了估计平均因果作用,不需要控制所有的协变量,而只需要控制倾向得分。
倾向得分的估计
最常见的倾向得分估计方法是逻辑斯谛回归,
[math]\displaystyle{ e(x) =\frac{exp(X\beta )}{1+exp(X\beta )} }[/math]
可由广义线性模型估出。此外,可利用非参数估计,如核估计、局部线性回归。
在用逆概率加权方法估计平均因果作用时,利用了倾向得分的平衡得分性质。因此,逆概率加权估计的准确性主要受制于倾向得分能否很好地平衡协变量,而倾向得分本身估计的准确性并不会对平均因果作用估计的准确性造成直接影响。为了检验倾向得分是否能较好地平衡协变量,可以按照倾向得分的估计值对样本分成k层(0=b_0<b_1<⋯<b_k=1),检验每一层内处理组和对照组的协变量分布是否平衡,或检验在每一层内
[math]\displaystyle{ E\left [ W|X, b_{j-1} \lt \hat{e(X)} \leq b_{j}\right ]=E\left [ W| b_{j-1} \lt \hat{e(X)} \leq b_{j}\right ] }[/math]
亦即检验每一层内W对X回归系数为0。
在有限样本特别是低维协变量的情形中,为了达到倾向得分的平衡得分性质,可通过求解
[math]\displaystyle{ \sum_{i=1}^{n}\frac{W_{I}}{e(X_{i})}X_{i}=\sum_{i=1}^{n}X_{i} }[/math]
从而估计倾向得分。
利用倾向得分估计平均因果作用
——逆概率加权估计
在无混淆性假设下,平均因果作用的逆概率加权(Inverse probability weighting)利用了倾向得分:
[math]\displaystyle{ E\left [ Y(1)-Y(0) \right ]=E\left [ \frac{WY}{e(X)} \right ]-E\left [ \frac{1-WY}{1-e(X)} \right ] }[/math]
为了保证上式良定义,需要倾向得分满足[math]\displaystyle{ 0\lt e(X)\lt 1 }[/math]。否则,需要截断(Trimming),只保留倾向得分远离0或1的样本,但由于截断后估计平均因果作用时只使用了一部分样本,因此截断后的估计并不是真正的因果作用。如果有n个样本,并且有倾向得分的估计[math]\displaystyle{ \hat{e(x)} }[/math],平均因果作用的逆概率加权估计量可由
[math]\displaystyle{ \sum_{i=1}^{n}\left [ \frac{W_{i}Y_{i}}{\hat{e(X_{i})}}-\frac{(1-W_{i})Y_{i}}{1-\hat{e(X_{i})}} \right ] }[/math]
给出。
类似地,处理组上的平均因果作用
[math]\displaystyle{ E[Y(1)-Y(0)|W=1]=E[WY]-E\left [ e(X)\frac{(1-W)Y}{1-e(X)} \right ] }[/math]
对照组上的平均因果作用
[math]\displaystyle{ E[Y(1)-Y(0)|W=1]=E\left [(1-e(X))\frac{WY}{e(X)} \right ]-E[(1-W)Y)] }[/math]
——子分类估计
子分类(Subclassification)估计按照倾向得分分层,在每一层内估计平均因果作用
[math]\displaystyle{ \hat{\tau _{j}}=\frac{\sum_{i=1}^{n}W_{i}Y_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}W_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}-\frac{\sum_{i=1}^{n}(1-W_{i})Y_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}(1-W_{i})1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}} }[/math]
记
[math]\displaystyle{ n_{j}=\sum_{i=1}^{n}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \} }[/math]
于是平均因果作用的子分配估计为
[math]\displaystyle{ \hat\tau _{j}=\sum_{j=1}^{k}\frac{\hat{n_{j}}}{n}\tau _{j} }[/math]
可以看出,子分类估计实际上在每一层内使用了常数的倾向得分
[math]\displaystyle{ \hat{e(x)}=\frac{\sum_{i=1}^{n}W_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}} }[/math]
常数化的倾向得分能在一定程度上抵抗倾向得分模型设定错误所导致的偏倚,通常子分类估计比逆概率加权估计更稳健