倾向评分

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
我是猫讨论 | 贡献2022年7月24日 (日) 00:32的版本
跳到导航 跳到搜索

定义

记X为协变量,W为处理变量,倾向得分(Propensity score)定义为

[math]\displaystyle{ e(x)=P(W=1|X=x) }[/math]


性质

给定倾向得分e(X)的值,协变量分布在处理组和对照组间是平衡的,即倾向得分是平衡得分:

[math]\displaystyle{ X \perp W|e(X) }[/math]


记Y(w)为处理w对应的潜在结果,Y为观测到的结局,那么在无混淆性假设[math]\displaystyle{ W \perp (Y(1),Y(0))|X }[/math]下,有

[math]\displaystyle{ W \perp (Y(1),Y(0))|e(X) }[/math]


因此,只要给定了倾向得分,潜在结果就和处理变量独立。为了估计平均因果作用,不需要控制所有的协变量,而只需要控制倾向得分。


倾向得分的估计

最常见的倾向得分估计方法是逻辑斯谛回归,

[math]\displaystyle{ e(x) =\frac{exp(X\beta )}{1+exp(X\beta )} }[/math]


可由广义线性模型估出。此外,可利用非参数估计,如核估计、局部线性回归。


在用逆概率加权方法估计平均因果作用时,利用了倾向得分的平衡得分性质。因此,逆概率加权估计的准确性主要受制于倾向得分能否很好地平衡协变量,而倾向得分本身估计的准确性并不会对平均因果作用估计的准确性造成直接影响。为了检验倾向得分是否能较好地平衡协变量,可以按照倾向得分的估计值对样本分成k层(0=b_0<b_1<⋯<b_k=1),检验每一层内处理组和对照组的协变量分布是否平衡,或检验在每一层内

[math]\displaystyle{ E\left [ W|X, b_{j-1} \lt \hat{e(X)} \leq b_{j}\right ]=E\left [ W| b_{j-1} \lt \hat{e(X)} \leq b_{j}\right ] }[/math]


亦即检验每一层内W对X回归系数为0。


在有限样本特别是低维协变量的情形中,为了达到倾向得分的平衡得分性质,可通过求解

[math]\displaystyle{ \sum_{i=1}^{n}\frac{W_{I}}{e(X_{i})}X_{i}=\sum_{i=1}^{n}X_{i} }[/math]

从而估计倾向得分。

利用倾向得分估计平均因果作用

——逆概率加权估计

在无混淆性假设下,平均因果作用的逆概率加权(Inverse probability weighting)利用了倾向得分:

[math]\displaystyle{ E\left [ Y(1)-Y(0) \right ]=E\left [ \frac{WY}{e(X)} \right ]-E\left [ \frac{1-WY}{1-e(X)} \right ] }[/math]


为了保证上式良定义,需要倾向得分满足[math]\displaystyle{ 0\lt e(X)\lt 1 }[/math]。否则,需要截断(Trimming),只保留倾向得分远离0或1的样本,但由于截断后估计平均因果作用时只使用了一部分样本,因此截断后的估计并不是真正的因果作用。如果有n个样本,并且有倾向得分的估计[math]\displaystyle{ \hat{e(x)} }[/math],平均因果作用的逆概率加权估计量可由

[math]\displaystyle{ \sum_{i=1}^{n}\left [ \frac{W_{i}Y_{i}}{\hat{e(X_{i})}}-\frac{(1-W_{i})Y_{i}}{1-\hat{e(X_{i})}} \right ] }[/math]


给出。


类似地,处理组上的平均因果作用

[math]\displaystyle{ E[Y(1)-Y(0)|W=1]=E[WY]-E\left [ e(X)\frac{(1-W)Y}{1-e(X)} \right ] }[/math]


对照组上的平均因果作用

[math]\displaystyle{ E[Y(1)-Y(0)|W=1]=E\left [(1-e(X))\frac{WY}{e(X)} \right ]-E[(1-W)Y)] }[/math]


——子分类估计

子分类(Subclassification)估计按照倾向得分分层,在每一层内估计平均因果作用

[math]\displaystyle{ \hat{\tau _{j}}=\frac{\sum_{i=1}^{n}W_{i}Y_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}W_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}-\frac{\sum_{i=1}^{n}(1-W_{i})Y_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}(1-W_{i})1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}} }[/math]


[math]\displaystyle{ n_{j}=\sum_{i=1}^{n}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \} }[/math]


于是平均因果作用的子分配估计为

[math]\displaystyle{ \hat\tau _{j}=\sum_{j=1}^{k}\frac{\hat{n_{j}}}{n}\tau _{j} }[/math]


可以看出,子分类估计实际上在每一层内使用了常数的倾向得分

[math]\displaystyle{ \hat{e(x)}=\frac{\sum_{i=1}^{n}W_{i}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}}{\sum_{i=1}^{n}1\left \{b_{j-1}\lt \hat{e(X_{i})}\leq b_{j} \right \}} }[/math]


常数化的倾向得分能在一定程度上抵抗倾向得分模型设定错误所导致的偏倚,通常子分类估计比逆概率加权估计更稳健

编辑推荐

书籍推荐

关于因果的讨论很多,但是许多入门的教材只是为没有统计学基础的读者介绍如何使用统计学技术处理因果性问题,而没有讨论因果模型和因果参数,本书希望协助具有基础统计学知识的教师和学生应对几乎在所有自然科学和社会科学非试验研究中存在的因果性问题。本书聚焦于用简单和自然的方法定义因果参数,并且说明在观察研究中,哪些假设对于估计参数是必要的。我们也证明这些假设可以用显而易见的数学形式描述出来,也可以用简单的数学工具将这些假设转化为量化的因果关系,如治疗效果和政策干预,以确定其可检测的内在关系。

课程推荐

这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第二季内容的分享,由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型,并介绍了两个框架的相互转化规律。
1. 讲述因果推断的两大框架:潜在结果模型和结构因果模型,讨论他们各自的优缺点以及他们之间的联系,详细介绍他们之间的转化规律。
  • Average Effect of Treatment on the Treated (ATT) 实验组的平均干预效应/匹配方法
B站搬运的杜克大学社会科学研究中心的分享视频,介绍了在使用匹配方法时会涉及到的ATT、CATE、ATE的方法。

文章总结

相关路径

  • 因果科学与Casual AI读书会必读参考文献列表,这个是根据读书会中解读的论文,做的一个分类和筛选,方便大家梳理整个框架和内容。
  • 因果推断方法概述,这个路径对因果在哲学方面的探讨,以及因果在机器学习方面应用的分析。
  • 因果科学和 Causal AI入门路径,这条路径解释了因果科学是什么以及它的发展脉络。此路径将分为三个部分进行展开,第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是机器学习中的因果(Causal AI)。