逆概率加权
逆概率加权是一种统计技术,用于计算与收集数据的人群不同的伪总体(pseudo-population)的标准化统计数据。在应用中,抽样人群和目标推断人群(目标人群)不一致的研究设计是很常见的[1]。可能有一些禁止性因素,如成本、时间或道德方面的考虑,使研究人员无法直接从目标人群中抽样[2]。解决这个问题的方法是使用另一种设计策略,如分层抽样(stratified sampling)。如果应用得当,加权可以潜在地提高效率,减少非加权估计的偏差。
一个非常早期的加权估计器是均值的Horvitz-Thompson估计器(Horvitz–Thompson estimator)[3]。当抽样概率是已知的,抽样人群是从目标人群中抽取的,那么这个概率的倒数被用来加权观测。这种方法已经在不同的框架下被推广到统计学的许多方面。特别是,有加权似然(weighted likelihoods)、加权估计方程(weighted estimating equations)和加权概率密度(weighted probability densities),大多数统计学都是由此而来的。这些应用编纂了其他统计学和估计器的理论,如边际结构模型(marginal structural models)、标准化死亡率(standardized mortality ratio),以及用于粗粒度或聚合数据的EM算法(EM algorithm)。
当数据缺失的受试者不能被纳入主要分析时,逆概率加权也被用来解释缺失的数据[4]。有了对抽样概率的估计,或该因素在另一次测量中被测量的概率,逆概率加权可以用来提高那些由于数据缺失程度大而代表性不足的受试者的权重。
逆概率加权估计量(Inverse Probability Weighted Estimator, IPWE)
当研究人员不能进行控制实验,但有观测数据进行建模时,逆概率加权估计量可用于证明因果关系。因为假设治疗不是随机分配的,如果总体中的所有受试者被分配了任何一种治疗,则目标是估计反事实或潜在结果。
假设观测数据是[math]\displaystyle{ \{\bigl(X_i,A_i,Y_i\bigr)\}^{n}_{i=1} }[/math],这些数据是从未知的分布中抽取出来的独立同分布(independent and identically distributed, i.i.d)数据,其中
- [math]\displaystyle{ X \in \mathbb{R}^{p} }[/math] 为协变量;
- [math]\displaystyle{ A \in \{0, 1\} }[/math] 是两个可能的处理;
- [math]\displaystyle{ Y \in \mathbb{R} }[/math] 为响应量;
- 我们不假设治疗是随机分配的。
目标是估计潜在结果[math]\displaystyle{ Y^{*}\bigl(a\bigr) }[/math],这个结果可以在给受试者分配治疗 [math]\displaystyle{ a }[/math]的情况下观测到。然后比较所有患者在总体中被分配为任一治疗方法的平均结果: [math]\displaystyle{ \mu_{a} = \mathbb{E}Y^{*}(a) }[/math]。我们想用观测数据[math]\displaystyle{ \{\bigl(X_i,A_i,Y_i\bigr)\}^{n}_{i=1} }[/math]来估计 [math]\displaystyle{ \mu_a }[/math] 。
估计器公式
[math]\displaystyle{ \hat{\mu}^{IPWE}_{a,n} = \frac{1}{n}\sum^{n}_{i=1}Y_{i} \frac{\mathbf 1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})} }[/math]
构建 IPWE
- [math]\displaystyle{ \mu_{a} = \mathbb{E}\frac{\mathbf{1}_{A=a} Y}{p(A|X)} }[/math] , 其中 [math]\displaystyle{ p(a|x) = \frac{P(A=a,X=x)}{P(X=x)} }[/math];
- 使用任何倾向性模型(通常是逻辑回归模型)构建 [math]\displaystyle{ \hat{p}_{n}(a|x) }[/math] 或 [math]\displaystyle{ p(a|x) }[/math] ;
- [math]\displaystyle{ \hat{\mu}^{IPWE}_{a,n} = \sum^{n}_{i=1}\frac{Y_{i} 1_{A_{i}=a}}{n\hat{p}_{n}(A_{i}|X_{i})} }[/math]。
在计算出各处理组的平均数后,可以用统计学上的t检验或方差检验(ANOVA test)来判断组间平均数的差异,并确定处理效果的统计显著性。
假设
回顾对于协变量[math]\displaystyle{ X }[/math],操作[math]\displaystyle{ A }[/math]和响应量[math]\displaystyle{ Y }[/math]的联合概率模型。当已知[math]\displaystyle{ X }[/math]和[math]\displaystyle{ A }[/math]分别为[math]\displaystyle{ x }[/math]和[math]\displaystyle{ a }[/math]时,响应量[math]\displaystyle{ Y(X=x,A=a)=Y(x,a) }[/math]的分布为 [math]\displaystyle{ \begin{aligned}Y(x,a)\sim {\frac {P(x,a,\cdot )}{\int P(x,a,y)\,dy}}\end{aligned} }[/math]。
我们做出以下假设:
- (A1)一致性(Consistency): [math]\displaystyle{ Y = Y^{*}(A) }[/math]
- (A2) 没有未观测的混淆因子: [math]\displaystyle{ \{Y^{*}(0), Y^{*}(1)\} \perp A|X }[/math]。更正式地说,对于每个有界和可测函数[math]\displaystyle{ f }[/math]和[math]\displaystyle{ g }[/math],
[math]\displaystyle{ {\begin{aligned}\qquad \mathbb {E} _{(A,Y)}\left[f(Y(X,a))\,g(A)\,|\,X\right]=\mathbb {E} _{Y}\left[f(Y(X,a))\,|\,X\right]\,\mathbb {E} _{A}\left[g(A)\,|\,X\right]\end{aligned}} }[/math]。
这意味着治疗分配只基于协变量数据,与潜在结果无关。
- (A3) 正值性(Positivity): 对于所有的 [math]\displaystyle{ a }[/math] 和 [math]\displaystyle{ x }[/math],[math]\displaystyle{ P(A=a|X=x)\gt 0 }[/math] 。
缺点
逆概率加权估计器(IPWE)在估计倾向较小时可能不稳定。如果任一处理分配的概率很小,那么逻辑回归模型可能在尾部附近变得不稳定,导致逆概率加权估计器也变得不稳定。
增广逆概率加权估计器
另一种估计方法是增广逆概率加权估计器(Augmented Inverse Probability Weighted Estimator,AIPWE) 。它融合了基于回归的估计和逆概率加权估计的性质。因此,它是一种“双重稳健”的方法。因为它只需要正确指定倾向或结果模型,而不是同时指定。这种方法增强了逆概率加权估计,以减少了变异性并提高了估计效率。该模型与逆概率加权估计(IPWE)具有相同的假设条件[5]。
估计器公式
[math]\displaystyle{ \begin{align} \hat{\mu}^{AIPWE}_{a,n} &= \frac{1}{n} \sum_{i=1}^n\Biggl(\frac{Y_{i}1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})} - \frac{1_{A_{i}=a}-\hat{p}_n(A_i|X_i)}{\hat{p}_n(A_i|X_i)}\hat{Q}_n(X_i,a)\Biggr) \\ &= \frac{1}{n} \sum_{i=1}^n\Biggl(\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}Y_{i} - (1-\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})})\hat{Q}_n(X_i,a)\Biggr) \\ &= \frac{1}{n}\sum_{i=1}^n\Biggl(\hat{Q}_n(X_i,a)\Biggr) + \frac{1}{n}\sum_{i=1}^n\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}\Biggl(Y_{i} - \hat{Q}_n(X_i,a)\Biggr) \end{align} }[/math]
符号定义如下:
- [math]\displaystyle{ 1_{A_{i}=a} }[/math] 是一个示性函数 (indicator function),指示受试者 i 是治疗组 a 的一部分(或不是)。
- 对于某个个体i,基于协变量[math]\displaystyle{ X }[/math] 和处理 [math]\displaystyle{ A }[/math],构建回归估计器 [math]\displaystyle{ \hat{Q}_n(x,a) }[/math] 去预测结果 [math]\displaystyle{ Y }[/math]。例如,使用普通最小二乘(ordinary least squares)回归。
- 构建倾向(概率)估计 [math]\displaystyle{ \hat{p}_n(A_i|X_i) }[/math]. 例如,使用逻辑回归(logistic regression)。
- 在AIPWE中结合得到 [math]\displaystyle{ \hat{\mu}^{AIPWE}_{a,n} }[/math]。
解释和“双重稳健性”
公式的后面重排有助于揭示基本思想:我们的估计器是基于使用模型的平均预测结果的(即[math]\displaystyle{ \frac{1}{n}\sum_{i=1}^n\Biggl(\hat{Q}_n(X_i,a)\Biggr) }[/math])。然而,那么模型的残差就不会(在完整的治疗组[math]\displaystyle{ a }[/math])大约为0。 我们可以通过增加模型的平均残差([math]\displaystyle{ Q }[/math])与结果([math]\displaystyle{ Y }[/math])的真实值的额外项来纠正这种潜在的偏差(即[math]\displaystyle{ \frac{1}{n}\sum_{i=1}^n\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}\Biggl(Y_{i} - \hat{Q}_n(X_i,a)\Biggr) }[/math]). 因为我们有[math]\displaystyle{ Y }[/math]的缺失值,所以我们给予权重,以提高每个残差的相对重要性(这些权重是基于看到每个个体观测值的反倾向性,也就是逆概率)。(参见文献[6]的第10页).
这种估计器的“双重稳健”效益来自这样一个事实,即两个模型中的一个已经被正确指定,估计器是无偏的(即可能是[math]\displaystyle{ \hat{Q}_n(X_i,a) }[/math]或[math]\displaystyle{ \hat{p}_{n}(A_{i}|X_{i}) }[/math], 或两者都是)。这是因为如果结果模型被很好地指定,那么它的残差将大约为0(不管每个残差将得到多少权重)。如果模型是有偏差的,但是加权模型是很好地指定的,那么偏差将被加权平均的残差很好地估计(并修正)[6][7][8]。
双重稳健估计器的偏差被称为二阶偏差,它取决于差分[math]\displaystyle{ \frac{1}{\hat{p}_{n}(A_{i}|X_{i})} - \frac{1}{{p}_{n}(A_{i}|X_{i})} }[/math]和差分[math]\displaystyle{ \hat{Q}_n(X_i,a) - Q_n(X_i,a) }[/math]的乘积。这个特性使我们在样本容量足够大的情况下,通过使用机器学习估计器(而不是参数模型)来降低双重稳健估计器的总体偏差[9]。
参见
- 倾向评分匹配(Propensity score matching)
参考文献
- ↑ Robins, JM; Rotnitzky, A; Zhao, LP (1994). "Estimation of regression coefficients when some regressors are not always observed". Journal of the American Statistical Association. 89 (427): 846–866. doi:10.1080/01621459.1994.10476818.
- ↑ Breslow, NE; Lumley, T; et al. (2009). "Using the Whole Cohort in the Analysis of Case-Cohort Data". Am J Epidemiol. 169 (11): 1398–1405. doi:10.1093/aje/kwp055. PMC 2768499. PMID 19357328.
- ↑ Horvitz, D. G.; Thompson, D. J. (1952). "A generalization of sampling without replacement from a finite universe". Journal of the American Statistical Association. 47 (260): 663–685. doi:10.1080/01621459.1952.10483446.
- ↑ Hernan, MA; Robins, JM (2006). "Estimating Causal Effects From Epidemiological Data". J Epidemiol Community Health. 60 (7): 578–596. CiteSeerX 10.1.1.157.9366. doi:10.1136/jech.2004.029496. PMC 2652882. PMID 16790829.
- ↑ Cao, Weihua; Tsiatis, Anastasios A.; Davidian, Marie (2009). "Improving efficiency and robustness of the doubly robust estimator for a population mean with incomplete data". Biometrika. 96 (3): 723–734. doi:10.1093/biomet/asp033. ISSN 0006-3444. PMC 2798744. PMID 20161511.
- ↑ 6.0 6.1 Kang, Joseph DY, and Joseph L. Schafer. "Demystifying double robustness: A comparison of alternative strategies for estimating a population mean from incomplete data." Statistical science 22.4 (2007): 523-539. link for the paper
- ↑ Kim, Jae Kwang, and David Haziza. "Doubly robust inference with missing data in survey sampling." Statistica Sinica 24.1 (2014): 375-394. link to the paper
- ↑ Seaman, Shaun R., and Stijn Vansteelandt. "Introduction to double robust methods for incomplete data." Statistical science: a review journal of the Institute of Mathematical Statistics 33.2 (2018): 184. link to the paper
- ↑ Hernán, Miguel A., and James M. Robins. "Causal inference." (2010): 2. link to the book - page 179