逆概率加权

逆概率加权是一种统计技术,用于计算与收集数据的人群不同的伪总体(pseudo-population)的标准化统计数据。在应用中,抽样人群和目标推断人群(目标人群)不一致的研究设计是很常见的[1]。可能有一些禁止性因素,如成本、时间或道德方面的考虑,使研究人员无法直接从目标人群中抽样[2]。解决这个问题的方法是使用另一种设计策略,如分层抽样(stratified sampling)。如果应用得当,加权可以潜在地提高效率,减少非加权估计的偏差。

一个非常早期的加权估计器是均值的Horvitz-Thompson估计器(Horvitz–Thompson estimator[3]。当抽样概率是已知的,抽样人群是从目标人群中抽取的,那么这个概率的倒数被用来加权观测。这种方法已经在不同的框架下被推广到统计学的许多方面。特别是,有加权似然(weighted likelihoods)、加权估计方程(weighted estimating equations)和加权概率密度(weighted probability densities),大多数统计学都是由此而来的。这些应用编纂了其他统计学和估计器的理论,如边际结构模型(marginal structural models)、标准化死亡率(standardized mortality ratio),以及用于粗粒度或聚合数据的EM算法(EM algorithm)。

当数据缺失的受试者不能被纳入主要分析时,逆概率加权也被用来解释缺失的数据[4]。有了对抽样概率的估计,或该因素在另一次测量中被测量的概率,逆概率加权可以用来提高那些由于数据缺失程度大而代表性不足的受试者的权重。

逆概率加权估计量

当研究人员不能进行控制实验,但有观测数据进行建模时,逆概率加权估计量(Inverse Probability Weighted Estimator, IPWE)可用于证明因果关系。因为假设治疗不是随机分配的,如果总体中的所有受试者被分配了任何一种治疗,则目标是估计反事实或潜在结果。

假设观测数据是[math]\displaystyle{ \{\bigl(X_i,A_i,Y_i\bigr)\}^{n}_{i=1} }[/math],这些数据是从未知的分布中抽取出来的独立同分布(independent and identically distributed, i.i.d)数据,其中

  • [math]\displaystyle{ X \in \mathbb{R}^{p} }[/math] 为协变量;
  • [math]\displaystyle{ A \in \{0, 1\} }[/math] 是两个可能的处理;
  • [math]\displaystyle{ Y \in \mathbb{R} }[/math] 为响应量;
  • 我们不假设治疗是随机分配的。

目标是估计潜在结果[math]\displaystyle{ Y^{*}\bigl(a\bigr) }[/math],这个结果可以在给受试者分配治疗 [math]\displaystyle{ a }[/math]的情况下观测到。然后比较所有患者在总体中被分配为任一治疗方法的平均结果: [math]\displaystyle{ \mu_{a} = \mathbb{E}Y^{*}(a) }[/math]。我们想用观测数据[math]\displaystyle{ \{\bigl(X_i,A_i,Y_i\bigr)\}^{n}_{i=1} }[/math]来估计 [math]\displaystyle{ \mu_a }[/math]

估计器公式

[math]\displaystyle{ \hat{\mu}^{IPWE}_{a,n} = \frac{1}{n}\sum^{n}_{i=1}Y_{i} \frac{\mathbf 1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})} }[/math]

构建 IPWE

  1. [math]\displaystyle{ \mu_{a} = \mathbb{E}\frac{\mathbf{1}_{A=a} Y}{p(A|X)} }[/math] , 其中 [math]\displaystyle{ p(a|x) = \frac{P(A=a,X=x)}{P(X=x)} }[/math]
  2. 使用任何倾向性模型(通常是逻辑回归模型)构建 [math]\displaystyle{ \hat{p}_{n}(a|x) }[/math][math]\displaystyle{ p(a|x) }[/math]
  3. [math]\displaystyle{ \hat{\mu}^{IPWE}_{a,n} = \sum^{n}_{i=1}\frac{Y_{i} 1_{A_{i}=a}}{n\hat{p}_{n}(A_{i}|X_{i})} }[/math]

在计算出各处理组的平均数后,可以用统计学上的t检验或方差检验(ANOVA test)来判断组间平均数的差异,并确定处理效果的统计显著性。

假设

回顾对于协变量[math]\displaystyle{ X }[/math],操作[math]\displaystyle{ A }[/math]和响应量[math]\displaystyle{ Y }[/math]的联合概率模型。当已知[math]\displaystyle{ X }[/math][math]\displaystyle{ A }[/math]分别为[math]\displaystyle{ x }[/math][math]\displaystyle{ a }[/math]时,响应量[math]\displaystyle{ Y(X=x,A=a)=Y(x,a) }[/math]的分布为 [math]\displaystyle{ \begin{aligned}Y(x,a)\sim {\frac {P(x,a,\cdot )}{\int P(x,a,y)\,dy}}\end{aligned} }[/math]

我们做出以下假设:

  • (A1)一致性(Consistency): [math]\displaystyle{ Y = Y^{*}(A) }[/math]
  • (A2) 没有未观测的混淆因子: [math]\displaystyle{ \{Y^{*}(0), Y^{*}(1)\} \perp A|X }[/math]。更正式地说,对于每个有界和可测函数[math]\displaystyle{ f }[/math][math]\displaystyle{ g }[/math]

[math]\displaystyle{ {\begin{aligned}\qquad \mathbb {E} _{(A,Y)}\left[f(Y(X,a))\,g(A)\,|\,X\right]=\mathbb {E} _{Y}\left[f(Y(X,a))\,|\,X\right]\,\mathbb {E} _{A}\left[g(A)\,|\,X\right]\end{aligned}} }[/math]

这意味着治疗分配只基于协变量数据,与潜在结果无关。

  • (A3) 正值性(Positivity): 对于所有的 [math]\displaystyle{ a }[/math][math]\displaystyle{ x }[/math][math]\displaystyle{ P(A=a|X=x)\gt 0 }[/math]

缺点

逆概率加权估计器(IPWE)在估计倾向较小时可能不稳定。如果任一处理分配的概率很小,那么逻辑回归模型可能在尾部附近变得不稳定,导致逆概率加权估计器也变得不稳定。

增广逆概率加权估计器

另一种估计方法是增广逆概率加权估计器(Augmented Inverse Probability Weighted Estimator,AIPWE) 。它融合了基于回归的估计和逆概率加权估计的性质。因此,它是一种“双重稳健”的方法。因为它只需要正确指定倾向或结果模型,而不是同时指定。这种方法增强了逆概率加权估计,以减少了变异性并提高了估计效率。该模型与逆概率加权估计(IPWE)具有相同的假设条件[5]

估计器公式

[math]\displaystyle{ \begin{align} \hat{\mu}^{AIPWE}_{a,n} &= \frac{1}{n} \sum_{i=1}^n\Biggl(\frac{Y_{i}1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})} - \frac{1_{A_{i}=a}-\hat{p}_n(A_i|X_i)}{\hat{p}_n(A_i|X_i)}\hat{Q}_n(X_i,a)\Biggr) \\ &= \frac{1}{n} \sum_{i=1}^n\Biggl(\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}Y_{i} - (1-\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})})\hat{Q}_n(X_i,a)\Biggr) \\ &= \frac{1}{n}\sum_{i=1}^n\Biggl(\hat{Q}_n(X_i,a)\Biggr) + \frac{1}{n}\sum_{i=1}^n\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}\Biggl(Y_{i} - \hat{Q}_n(X_i,a)\Biggr) \end{align} }[/math]

符号定义如下:

  1. [math]\displaystyle{ 1_{A_{i}=a} }[/math] 是一个示性函数 (indicator function),指示受试者 i 是治疗组 a 的一部分(或不是)。
  2. 对于某个个体i,基于协变量[math]\displaystyle{ X }[/math] 和处理 [math]\displaystyle{ A }[/math],构建回归估计器 [math]\displaystyle{ \hat{Q}_n(x,a) }[/math] 去预测结果 [math]\displaystyle{ Y }[/math]。例如,使用普通最小二乘(ordinary least squares)回归。
  3. 构建倾向(概率)估计 [math]\displaystyle{ \hat{p}_n(A_i|X_i) }[/math]. 例如,使用逻辑回归(logistic regression)。
  4. 在AIPWE中结合得到 [math]\displaystyle{ \hat{\mu}^{AIPWE}_{a,n} }[/math]

解释和“双重稳健性”

公式的后面重排有助于揭示基本思想:我们的估计器是基于使用模型的平均预测结果的(即[math]\displaystyle{ \frac{1}{n}\sum_{i=1}^n\Biggl(\hat{Q}_n(X_i,a)\Biggr) }[/math])。然而,那么模型的残差就不会(在完整的治疗组[math]\displaystyle{ a }[/math])大约为0。 我们可以通过增加模型的平均残差([math]\displaystyle{ Q }[/math])与结果([math]\displaystyle{ Y }[/math])的真实值的额外项来纠正这种潜在的偏差(即[math]\displaystyle{ \frac{1}{n}\sum_{i=1}^n\frac{1_{A_{i}=a}}{\hat{p}_{n}(A_{i}|X_{i})}\Biggl(Y_{i} - \hat{Q}_n(X_i,a)\Biggr) }[/math]). 因为我们有[math]\displaystyle{ Y }[/math]的缺失值,所以我们给予权重,以提高每个残差的相对重要性(这些权重是基于看到每个个体观测值的反倾向性,也就是逆概率)。(参见文献[6]的第10页).

这种估计器的“双重稳健”效益来自这样一个事实,即两个模型中的一个已经被正确指定,估计器是无偏的(即可能是[math]\displaystyle{ \hat{Q}_n(X_i,a) }[/math][math]\displaystyle{ \hat{p}_{n}(A_{i}|X_{i}) }[/math], 或两者都是)。这是因为如果结果模型被很好地指定,那么它的残差将大约为0(不管每个残差将得到多少权重)。如果模型是有偏差的,但是加权模型是很好地指定的,那么偏差将被加权平均的残差很好地估计(并修正)[6][7][8]

双重稳健估计器的偏差被称为二阶偏差,它取决于差分[math]\displaystyle{ \frac{1}{\hat{p}_{n}(A_{i}|X_{i})} - \frac{1}{{p}_{n}(A_{i}|X_{i})} }[/math]和差分[math]\displaystyle{ \hat{Q}_n(X_i,a) - Q_n(X_i,a) }[/math]的乘积。这个特性使我们在样本容量足够大的情况下,通过使用机器学习估计器(而不是参数模型)来降低双重稳健估计器的总体偏差[9]

参见

参考文献

  1. Robins, JM; Rotnitzky, A; Zhao, LP (1994). "Estimation of regression coefficients when some regressors are not always observed". Journal of the American Statistical Association. 89 (427): 846–866. doi:10.1080/01621459.1994.10476818.
  2. Breslow, NE; Lumley, T; et al. (2009). "Using the Whole Cohort in the Analysis of Case-Cohort Data". Am J Epidemiol. 169 (11): 1398–1405. doi:10.1093/aje/kwp055. PMC 2768499. PMID 19357328.
  3. Horvitz, D. G.; Thompson, D. J. (1952). "A generalization of sampling without replacement from a finite universe". Journal of the American Statistical Association. 47 (260): 663–685. doi:10.1080/01621459.1952.10483446.
  4. Hernan, MA; Robins, JM (2006). "Estimating Causal Effects From Epidemiological Data". J Epidemiol Community Health. 60 (7): 578–596. CiteSeerX 10.1.1.157.9366. doi:10.1136/jech.2004.029496. PMC 2652882. PMID 16790829.
  5. Cao, Weihua; Tsiatis, Anastasios A.; Davidian, Marie (2009). "Improving efficiency and robustness of the doubly robust estimator for a population mean with incomplete data". Biometrika. 96 (3): 723–734. doi:10.1093/biomet/asp033. ISSN 0006-3444. PMC 2798744. PMID 20161511.
  6. 6.0 6.1 Kang, Joseph DY, and Joseph L. Schafer. "Demystifying double robustness: A comparison of alternative strategies for estimating a population mean from incomplete data." Statistical science 22.4 (2007): 523-539. link for the paper
  7. Kim, Jae Kwang, and David Haziza. "Doubly robust inference with missing data in survey sampling." Statistica Sinica 24.1 (2014): 375-394. link to the paper
  8. Seaman, Shaun R., and Stijn Vansteelandt. "Introduction to double robust methods for incomplete data." Statistical science: a review journal of the Institute of Mathematical Statistics 33.2 (2018): 184. link to the paper
  9. Hernán, Miguel A., and James M. Robins. "Causal inference." (2010): 2. link to the book - page 179

编者推荐

集智俱乐部文章

缺失数据和因果推断中的双稳健方法介绍 | 周日直播·因果科学读书会 | 集智俱乐部

因果推断在观察性研究中的应用Ⅱ:分析 | 周日直播·因果科学读书会 | 集智俱乐部

Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响 | 集智俱乐部

集智俱乐部课程推荐

这个视频内容来自集智俱乐部读书会因果科学读书会第三季内容的分享,主题是”因果推断在医学、药学、生物学中的应用“,由北京大学数学科学学院统计学2018级博士生邓宇昊分享。本次讨论主要关注倾向得分的均衡性质,当非混淆性成立时,探索观察性研究中平均因果作用的估计方法,包括逆概率加权估计、子分类估计和匹配估计。

非混淆性假设是在观察性研究中估计平均因果作用的常用假设。本次报告将从倾向得分的均衡性质出发,介绍如何根据倾向得分对样本分层,进而探讨逆概率加权估计、子分类估计以及匹配三种典型的因果作用估计方法。

这些方法都基于非混淆性假设,为了评估这一假设的合理性,本次报告也将介绍几种评估策略,如伪结局、伪处理的方法。此外,敏感性分析也是评估基于非混淆性假设的因果作用估计的常用手段,我们将介绍一种简单情形的敏感性分析,从而说明敏感性分析对于检验因果作用的重要性。最后,我们会简单对比随机实验与观察性研究。

相关路径

  • 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
  • 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
  • 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。
  • 复杂网络动力学系统重构文献,这个路径是张江老师梳理了网络动力学重构问题,描述了动力学建模的常用方法和模型,并介绍了一些经典且重要的论文,这也是复杂系统自动建模读书会的主要论文来源,所以大部分都有解读视频。
  • 因果纠缠集智年会——因果推荐系统分论坛关于因果推荐系统的参考文献和主要嘉宾介绍,来源是集智俱乐部的因果纠缠年会。